全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析师(CDA)专版
2675 4
2016-12-25
为什么搞统计学的好多都去做机器学习了?学术界可能不是这样,但对于一般人来讲,确实差不多。大部分的业界原因我比较认可宋一松的说法。我不认可说机器学习更注重预测,统计更注重阐释,你看看机器学习里决定树的阐释效果差么,统计真不注重预测么(stepwise 这种纯预测统计基础工具要哭了)。说机器学习很难保证完备性和稳定性的, 那validation 又做来干什么,而且abnormal case analysis 不应该是单独的一门学问么,至于地震什么的,通常做法是买保险吧。。。

统计跟机器学习在应用层面上根本的差别是什么?
还是那句老话,无论是传统的统计,还是贝叶斯统计,统计永远都是在用样本估计总体特征。而社会科学研究的主要就是人类这个大总体。
你再看看机器学习的应用方面,
互联网企业或银行业是直接掌握了总体的数据啊,或者说对于他们的应用来讲,不需要估计一个更大的总体了啊,只要研究他们用户本身就足够了。

所以你会由此发现两者使用的差别是如此的巨大。就拿一个基本的feature selection作对比例子。
传统统计学方法:ANOVA and ANCOVA, Best subset, LASSO and Ridge, PCA
机器学习方法:Decision Tree(当然还可以由此衍生出random forest, gradient boosting, etc.)
看看上边的,是不是有的涉及最大似然估计,估计的是什么,是总体啊。有的涉及减小方差损失,为什么,也是为了总体考虑啊。
你再看看下边的,只要分的最有用就好。怎么算有用,比如说test case 的mse最小,我不需要估计test case 的分布,因为我从traing case里完全知道。这也算是大数据的力量吧。

在比如说对于unbalanced data set:
传统统计学方法在glm里各种mixed modeling (or hierarchical modeling)还要防over-dispersion, 究其原因还是要估计总体。
机器学习方法最直接的就是SMOTE, 直接制造更多的minority case以及减少majority case,也是完全不用管总体分布的。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-12-25 16:42:26
提示: 作者被禁止或删除 内容自动屏蔽
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-26 12:07:44
掌握了总体的概念是不对的!只要你是对未来进行预测,你永远掌握不了总体。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-26 13:58:38
sqy 发表于 2016-12-26 12:07
掌握了总体的概念是不对的!只要你是对未来进行预测,你永远掌握不了总体。
同意你的观点,大数据时代这本书里的样本即总体的概念是很有误导性的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-26 14:29:27
这篇是谁写的?很多错误的观点。比如SMOTE,很多时候是不管用的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群