我如何学会停止担心和爱不确定性
人与不确定性
从早期开始,人类就与不确定性有着重要的,常常是对立的关系。我们尝试在找到它的任何地方将其杀死。在没有解释许多自然现象的情况下,人类发明了神来解释它们,并且在不确定未来的情况下,他们咨询了神谕。
正是神谕的作用是减少同胞的不确定性,预测他们的未来并根据神的旨意给他们提供咨询,尽管他们的准确性令人望而却步,但据信,在任何确定性方面都优于没有。
随着社会的成熟,神谕(并非完全)被经验思想所取代,事实证明,神志思想在预测和劝告上更为成功。经验主义本身就演变成我们称为科学方法的技术的集合,事实证明,经验方法在减少不确定性方面更加有效,是现代社会最可靠的预测方法。统计学在大多数科学中起着核心作用,提供了衡量证据和评估假设的主要工具。(尽管主流方法在这方面存在严重缺陷)。
最近,统计和计算理论以及计算能力的进步使得分析大量数据成为可能,而无需一般理论就可以进行预测和提出建议,甚至导致某些人宣称科学方法已经过时。尽管我不同意,但不能否认此工具的强大功能。这种力量,再加上围绕这些工具的理论和实践的复杂性,已经使使用它的人变成了现代的先知。
但是工具有局限性,对用户的理解至关重要。特别是,我想谈谈两种最流行的用于处理不确定性的工具的局限性:频繁统计 和监督学习。
频率统计及其局限性
频率是频率近似于概率的概念。我们中的大多数人都在中学时就被教导了这个概念:掷硬币多次,计算正面的频率,与正面硬币的理论概率进行比较,等等。按照这个想法,概率被定义为重复“随机实验”时的频率极限。您可以重复的次数越多,获得的概率就越好。从这个想法衍生的技术集合在大多数科学中都得到了广泛应用,并获得了成功。
但是,按概率论的常识性定义存在的一个问题是,由于无法重复发生唯一事件,因此无法将概率分配给唯一事件。但是,以非正式的方式, 人们确实会分配这样的概率, 因此希望统计理论能够处理它们。经常性问题通过考虑“参照系”来解决,即假设可以认为类似事件至少近似来自同一“随机实验”(因此,经常性问题可以通过回顾过去来回答选举问题。 ,类似的选举)。出于实用性而放弃了理论上的严格性。
当人们希望思考未知数量的可能性,或者关于过去或现在的陈述的真实性时,也会出现类似的问题。例如,假设为真的可能性。对于频繁的统计数据来说,这种可能性是无法测量的,因此,当提出问题(科学的中心问题)时,“给定这些数据,这种假设是正确的可能性有多大?”,则使用了一种理论上非常弱的技术: p值。
p值的图形说明
该p值可以(不准确)看作是回答这个问题:“怎么可能会是我收集的数据,因为我的假设是错误的?”的想法是,如果它真的很小,那么该假设可能是正确的。显然,这两个问题并不相同,但大多数p值使用者将其等同。为了在这里解释错误的确切性质,需要概率的重要定理,我将在稍后讨论。
监督学习及其局限性
可以采用另一种方法,该方法几乎不考虑不确定性和概率的本质,而是将精力集中在针对给定任务产生最佳预测上。这是监督学习(SL)(一种
机器学习(ML))的重点,它专注于在数据集上观察到的给定一组输入变量(AKA特征)x的情况下预测响应变量y。
在数学上,SL算法试图通过观察这些变量来调整参数,从而根据给定的输入变量来估计响应变量的期望值。已经设计出许多有效的方法来执行此任务,并且其中一种方法必须根据变量的性质,维度和生成数据的现象的复杂性在多种方法中进行选择。
SL任务的示例,通过线性回归解决
因为它们被设计为可以很好地解决此问题,所以SL算法通常无法处理其他类型的问题。例如,在输入变量给定的情况下,人们可能想问,响应超过给定阈值的可能性是多少。尽管这是一个通常可以用统计模型回答的问题,但并不是每个ML模型都有一种直接的方法来完成,对于许多人来说根本不可能。
使用某些SL算法时经常出现的另一个问题是难以解释其结果。以多层感知器为例,该感知器具有许多层,每个神经元(通常是每层)具有激活功能,并且权重很大,因此很难解释每个参数的含义,或者很难确定其中一个参数的变化。输入会影响响应。在这种情况下,预测能力的代价是必须将模型用作一种黑匣子,其唯一的任务是在没有上下文或可解释性的情况下给出预测。
多层感知器
当我们将预测模型用作黑匣子时,如果不了解预测模型对数据和现象所做的假设,就有可能陷入不确定性。由于我们知道我们的预测是准确的(机器学习算法的预测准确率超过90%并不罕见),但是我们并不完全知道它们的内部运作方式,因此我们倾向于完全信任它们,就像它们是甲骨文,并做出理所当然的预测。
解决超不确定性的一种方法是考虑不确定性,对其进行度量和呈现,而不是减少和隐藏它,为此,一个很好的框架被称为贝叶斯统计。
贝叶斯统计
贝叶斯主义根植于这样的思想,即概率是不确定性的量度,因此,它取决于进行测量的个人可用的信息。作为一种度量,它可以应用于您可以想到的任何事物,包括独特事件,未知数量或关于陈述的事实。
该术语是指 托马斯·贝叶斯(Thomas Bayes),他 是18世纪的牧师,他证明了定理的特例,并以他的名字命名。该定理提供了一种计算“逆概率”的方法,即当我们知道B给定A的概率时,事件A给定事件B的概率。
霓虹灯的贝叶斯定理
对于贝叶斯,给定数据模型和参数的先验分布,这是一种推断参数的方法。该先验分布对在观察任何数据之前所拥有的信息进行编码。
通过使用该定理及其概率定义,贝叶斯统计可以将关于现象的拥有的信息与关于现象的观察数据相结合,并产生更新的更准确的信息。尽管以这种方式得出的推论是主观的,但贝叶斯统计理论指出,随着我们收集越来越多的数据,主观部分(先验信息)变得越来越不相关。主观近似于目标。
像频繁性一样,简单的贝叶斯模型也具有简单的解释,例如,线性系数的后验分布可测量因
变量中独立变量的影响周围的不确定性。
贝叶斯线性回归的后验分布。分布的峰值代表该参数最可能的值,而扩展则代表该参数的不确定性。
但是与常客不同,贝叶斯可以为假设分配概率,并直接使用贝叶斯定理对其进行计算。这样,我们可以在理论上有很强的基础上确定给定数据的假设的可能性。
贝叶斯定理应用于假设评估。
而且,与监督学习方法不同,统计信息根据功能提供了响应变量的完整分布,从而使我们能够提出与其相关的许多问题。此条件分布还编码了有关我们预测的不确定性,例如,允许我们计算预测间隔,而不是每个输入组合的单个值。
给定变量x和数据D的y的预测分布。阴影区域表示y在0到2.5之间的概率
一些局限性
当然,主流科学有理由使用频频论方法而不是贝叶斯方法,这归结为实用性。在过去的几个世纪中,贝叶斯主义的适用性受到硬积分(有时是不可能的)的限制,必须对其进行求解或近似才能使其起作用。一个需要计算“后验”分布,即观察数据后不确定性的度量,另一个需要预测性分布,这将告诉我们“新”数据点的可能值是多少,可能还会给定其他值。变量。
预测分布。该积分通常无法解析解决
幸运的是,蒙特卡洛马尔可夫链的最新发展已成为一种从这些分布进行模拟的方式,而无需显式计算积分。通过模拟来自后验或预测分布的许多观察值,我们可以计算出可以从中得出的任何概率。
甚至更先进的方法,例如自动微分变异推论(ADVI),都可以进一步减少到达后验分布所需的时间和调整。
还有更多的哲学问题和实际考虑因素阻止了这些方法的主流使用,尽管由于概率编程的最新发展而使后者稍有减少。
概率编程
概率编程是能够完全指定贝叶斯模型并仅用两行进行推断的框架的名称。
以下摘录摘自均值变化检测模型的示例,该模型摘自Cameron Davidson-Pilon的著作《贝叶斯黑客方法》(Bayesian Methods for Hackers),可在其中找到完整内容。
这是PyMC3中的型号规格。
使用PyMC3的均值变化模型
推论(即求解那些丑陋的积分)也可以只用几行来完成
使用Metropolis MCMC算法使用PyMC3进行推理
虽然PyMC3是一个很好的框架,但如果Python不是您的理想选择,还有很多其他框架,例如Clojure的Anglican或独立的Stan。
爱情不确定性
总之,贝叶斯统计提供了一个
数据分析框架,该框架可以克服在诸如监督学习和频率统计之类的不同技术中普遍存在的许多局限性。
特别是,它们提供了一种解决不确定性问题的方法,允许我们提出有关概率的问题,并通过测量和呈现而不是盲目地降低不确定性来使分析师与健康的关系更加健康。
题库