全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 Hadoop论坛
3113 4
2012-07-16
工作中,从基本的linux到,hadoop,hive的安装、测试和对其自身理论的研究,后来开始研究mahout,学了一大堆模型也在不断夯实自己理论基础,在这么一路上,始终思考一个问题:数据多了,统计理论面临的问题,也看了mckinsey的关于大数据时代等,我以为被大家抄的火热的大数据时代,对我们有几个要求:
1、重视小概率事件,我的一个同事在建立模型中,10%的人(样本100w)认为没有考虑价值,而这个对客户在1亿以上,其实保守估计也在1000w,难道这些也不考虑
2、提升自己的商业思维,在实践中学习和发展,我们做这个东西商业价值到底有多大,我们要客观,而我们不要沉迷于大数据这样的字眼。现实,很多数据缺失,有的数据是在没有目的的收集,一个数据仓库必须要有商业头脑和分析思维的人来架构,否则机器用了上千台,但价值不大。没有商业价值的分析就是浪费时间和金钱。
3、要从事大数据分析,就必须从基础做起,夯实基础(理论基础、商业思维、数据的重视与藐视、好的文笔等)

厚积薄发,可以从不同数据论证相同问题,这是大数据好处,因为提高了精确性。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-7-16 20:58:11
附录:
首先,黑天鹅是小概率事件,而小概率是对一个事件而言。所以,从统计角度考虑,塔勒布反对统计学本身是有问题,塔勒布可以说在经济危机的时候,把小概率事件进行了强调。但忽视统计学发展历史,他说要学生学习金融史、但忽视统计发展史。在历史上,统计学发展从数据非常难收集,而人们对其研究是理论,所谓大于30以上,已经是大样本了。而如果黑天鹅发生概率为0.00001,在30个样本发生概率为0.0003,在100个样本下,发生概率为0.001,在10,000个样本发生为0.09,在100,000,000样本下发生的概率1。这些都是基于样本之间独立,如果存在关联性的话在比较小的样本下也能发生黑天鹅。

我赞同丹麦-比隆乐高系统公司-战略风险主管-Hans Læssøe的意见,我们的决策是多次,具有关联性的,如果在黑天鹅发生概率依然为0.00001的话,我估计可能在1000次这类决策中就有可能发生1次黑天鹅。问题的关键,如何估计黑天额发生的概率,更进一步,发生的原因是什么造成的?每次决策与历史决策的关系有多大,概率有多大?这些研究了。

——————————————————————————————————————————————————————
以上是我关于小概率事件给出自己的认识,还请不吝赐教,爱萌拜上!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-13 12:35:09
学习!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-2 15:42:59
有统计和计量的基础,能操作Stata,我想学习数据挖能否指点下要怎样入手呢?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-2 15:43:36
有统计和计量的基础,能操作Stata,我想学习数据挖能否指点下要怎样入手呢?谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群