所以你会由此发现两者使用的差别是如此的巨大。就拿一个基本的feature selection作对比例子。
传统统计学方法:ANOVA and ANCOVA, Best subset, LASSO and Ridge, PCA
机器学习方法:Decision Tree(当然还可以由此衍生出random forest, gradient boosting, etc.)
看看上边的,是不是有的涉及最大似然估计,估计的是什么,是总体啊。有的涉及减小方差损失,为什么,也是为了总体考虑啊。
你再看看下边的,只要分的最有用就好。怎么算有用,比如说test case 的mse最小,我不需要估计test case 的分布,因为我从traing case里完全知道。这也算是大数据的力量吧。