统计有两种风格:贝叶斯和频率论,
这两种方法都有反对者和支持者,
您应该同时学习这两种方法以增强您的建模能力。
在统计推断中,您可以在贝叶斯和常客 [无术语](经典)方法之间进行选择。乍一看,贝叶斯方法更快、更干净、更人性化。它通常被认为是一种更直观的分析方法,更接近地模仿我们的大脑如何解决问题——使其更加用户友好。那么为什么我们不都使用贝叶斯方法呢?
乍一看,贝叶斯方法比常客方法更上一层楼,支持者吹捧它的许多优点,包括:
更快的学习:使用常客方法,您可以根据从数据中收集到的事实来发表意见。使用贝叶斯分析,您从最初的信念开始,然后收集证据——使您的最初信念适应证据。基于这些先前的结果可以加快学习速度 [1]。
更容易解释:贝叶斯方法具有更灵活的模型。这种灵活性可以为频繁方法失败的复杂统计问题创建模型。此外,贝叶斯分析的结果通常比常客分析的结果更容易解释 [2]。
更好、更用户友好的结果:根据华盛顿大学计算机科学与工程学院的 Matthew Kay 及其同事的说法,贝叶斯分析 [3] 使研究人员摆脱了小样本中“无意义p 值 [无术语] 的束缚”研究,相反,您专注于可能的 影响大小 [无术语]。这使得更多较小的研究可以包含在对话中,而不是被埋没在意义不明的阴霾下。研究人员声称贝叶斯统计更加以用户为中心。
贝叶斯分析是一系列
人工智能研究的背后,包括谷歌的自动驾驶汽车。根据《贝叶斯定理的流行历史》一书的作者 Sharon Bertsch McGrayne [4] 的说法,贝叶斯分析可以“从电子邮件中分类垃圾邮件、评估医疗和国土安全风险以及解码 DNA 等等。”
综上所述,我们没有抛弃那些旧的常客方法来支持这种处于人工智能前沿的更新的、用户友好的工具集,这似乎令人惊讶。那么为什么我们不大规模采用这些伟大的工具呢?也许是因为统计分支和它的常客前辈一样有问题。
贝叶斯统计的“伪科学”
哥伦比亚大学统计学和政治学教授 Andrew Gelman 指出,贝叶斯方法的一个主要问题在于这些方法如何随着时间的推移而演变。“在过去,贝叶斯方法至少具有数学上干净的优点,”格尔曼说。“现在,它们似乎都是使用马尔可夫链蒙特卡罗计算的,这意味着你不仅不能真实地评估该方法的统计特性,甚至无法确定它是否收敛 [no term],只需再添加一个不可验证(和未验证)假设列表中的项目” [5]
因此,尽管贝叶斯统计看起来很有用,但请注意,您精心实施的算法可能会被视为伪科学而被忽视——尤其是在您使用 MCMC 时。
但是伪科学标签不能也应用于频率统计吗?毕竟,“通常的”统计数据以能够轻易扭曲事实而闻名。频率论方法的核心是 p-value ,因其灵活性而臭名昭著——这不是一个好的意义。例如,P-Hacking——您可以在其中添加协变量、删除异常值或执行其他统计魔法以将大 p 值变成一个小 p 值——这只是一种可以轻松操纵 p 值以使结果符合议程的方式。
为什么无论如何你应该学习贝叶斯统计
如果贝叶斯统计与频率论方法一样有问题,那么所有伪科学的解决方案就是同时学习它们。华盛顿大学生物统计学教授 Ken Rice 说得最好:
“在某些工作中使用铁锹,在另一些工作中使用铁锹,并不要求你终生只使用 Spadian 或 Shovelist 哲学,或者相信只有铁锹或铁锹代表通往花园整洁的一条真正途径。” [6]
在没有研究所有候选人并就哪个候选人“最好”做出明智的决定之前,您不应该在选举中投票。出于同样的原因,如果您将自己限制在一组技术上,您将阻碍您有效分析数据的能力,尤其是当这两种方法的实用性都在争论中时。通过学习贝叶斯方法和频率方法,您可以为手头的任务选择最佳候选人。
编辑推荐
1、
2022年300个以上最佳免费数据科学课程
2、
大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
3、
机器学习模型方法总结
4、
历史最全机器学习/深度学习/人工智能专业术语表中英对照表
5、
机器学习如何应用于商业场景?三个真实的商业项目
6、
数据工作者的自我修养 | 哪些技能是必不可少的?
7、
《汗牛充栋:数据分析书籍分享》CDA网校新课上线
8、
文本挖掘常用的107个语料库
9、
一图读懂“东数西算”工程
10、
零基础转行数据分析,看这篇文章就够了
DA内容精选