作为一个还没入门的、想学Machine learning的统计学研究生,想谈谈对这两门学科的看法。
最近在看Ethem Alpaydin的机器学习导论。确实是导论,很基础,很简单,薄薄一本把在这个领域里面流行的算法都讲了一遍。当然只讲了最基础的一些东西。发现这学期生统课上讲过的,EM算法、K-means算法、混合分布这种东西都是机器学习里面的基础理论。
可以说,模式识别和机器学习里面几乎全都是统计理论,但和经典统计理论不同的地方在于,机器学习更加是algorithm-oriented,而统计学的话更加像是model-oriented。换言之,机器学习更加强调我这个算法的结果要好,所以他们很关心一个东西叫做损失函数(差不多就是描述预测与实际之间的偏差,跟残差的概念有一点点像)。而统计学的话先要给一堆模型假设,然后站在模型上面通过严格的数学推导做出结果。
因为统计学刚刚诞生的时候,Fisher他们就发明了诸如大样本理论、正态分布这样的经典参数统计方法,参数统计的好处就是先知道了某个确定的分布(一般都是正态前提),然后我只要知道样本的少数几个统计量,就可以做很多的推断了。这些方法在没有计算机的时代,是很经典。但是计算机诞生了以后,非参数的方法就开始越来越活跃了,反正我不用考虑那么多计算量了嘛。而且觉得搞CS的人都很实际。统计学里面冒出来一个新方法,统计学家必须从数学角度先去讨论它的无偏性、一致性、稳健性什么的。但模式识别、数据挖掘、机器学习这些领域里面做出卓越贡献的文章,往往就是哪个国际学术会议的报告。所以感觉上,虽然是脱胎统计学,但是明显machine learning这一支就是人丁兴旺,纷纷开花结果了。而咱们学统计学的,还依旧在参数统计的圈子里面转着呢。