神经网络与纯数学之间的联系
如今,
人工智能几乎存在于我们生活的每个部分。智能手机,社交媒体供稿,推荐引擎,在线广告网络和导航工具是每天都会影响我们的基于AI的应用程序的示例。
深度学习已在语音识别,自动驾驶,机器翻译和视觉对象识别等领域系统地改善了现有技术。然而,
深度学习之所以如此出色的原因尚不完全清楚。
数学提示
狄拉克,量子力学之父,可以说是因为最伟大的英国物理学家之一艾萨克·牛顿爵士曾经说过使用“物理学的进展的数学方法的原因 ”将
“……使人们能够推断出尚未进行的实验的结果。完全没有可能使用[…]方法的逻辑原因,但是在实践中发现它确实有效并且取得了一定的成功。这必须归因于自然界中的一些数学性质,自然界的随便观察者不会怀疑这种性质,但它在自然界的计划中仍起着重要作用。”
保罗·狄拉克(Paul Dirac),1939年
保罗·狄拉克(Paul Dirac)的肖像正处于他的权力鼎盛时期(Wikimedia Commons)。
历史上有许多例子,纯抽象的数学概念最终导致了超出其发展背景的强大应用方式。本文是有关这些示例之一。
尽管我从事机器学习已经有几年了,但我是一名经过训练的理论物理学家,并且对纯数学也情有独钟。最近,我对深度学习,纯数学和物理学之间的联系特别感兴趣。
本文提供了数学分支中称为数学分析的强大技术示例。我的目标是至少在某些方面使用严格的数学结果来尝试“证明”深度学习方法为何如此出色地起作用。
神经网络的抽象表示(源)。
一个美丽的定理
在本节中,我将指出,人工神经网络如此强大的原因之一与其神经元输出的数学形式密切相关。
爱因斯坦(Albert Einstein )的手稿(来源)。
我将使用一个著名的定理来证明这一大胆的主张,该定理最初是由两位俄国数学家在50年代后期证明的,即所谓的Kolmogorov-Arnold表示定理。
数学家Andrei Kolmogorov(左)和Vladimir Arnold(右)。
希尔伯特的第13个问题
1900年,20世纪最有影响力的数学家之一戴维·希尔伯特(David Hilbert)提出了一系列著名的问题,这些问题有效地确立了20世纪数学研究的进程。
Kolmogorov-Arnold表示定理与一个著名的希尔伯特问题有关,所有这些都对20世纪的数学产生了巨大影响。
与神经网络建立联系
对这些问题中的一个问题,特别是第13个问题,进行了概括,考虑了以下可能性:n个变量的函数可以表示为单个变量的两个函数之和和组成的组合,用Φ和denoted表示。
更具体地说:
Kolmogorov-Arnold表示定理
在此,η和λs是实数。应该注意的是,这两个单变量函数是Φ,而?可以具有高度复杂的(分形)结构。
Kolmogorov(1957),Arnold(1958)和Sprecher(1965)的三篇文章提供了必须存在这种表示的证明。这个结果是相当出乎意料的,因为据此,多元函数令人困惑的复杂性可以被“转化”为单变量函数的琐碎运算,例如加法和函数组合。
怎么办?
如果您走了这么远(如果您这样做的话,我会很兴奋),您可能想知道:50年代和60年代的神秘定理怎么能与诸如人工神经网络之类的尖端算法远程联系?
快速提醒神经网络激活
在神经网络的每个节点上计算的表达式是其他函数的组合,在这种情况下,就是所谓的激活函数。这种合成的复杂程度取决于包含该节点的隐藏层的深度。例如,第二个隐藏层中的节点执行以下计算:
由第二个隐藏层中的第k个隐藏单元执行计算。
其中w s是权重,b s是偏差。显然与上面几段所示的多元函数f有相似之处!
让我们在Python中快速写下一个仅用于正向传播的函数,该函数输出神经元执行的计算。以下函数的代码包含以下步骤:
第一行:第一个激活函数?作用于由以下公式得出的第一个线性步骤:
x0.dot(w1)+ b1
x0输入向量在哪里。
第二行:第二激活函数作用于第二线性步骤
y1.dot(w2)+ b2
第三行:一个SOFTMAX函数在神经网络的最终层中使用时,作用在第三线性步
y2.dot(w3)+ b3
完整功能是:
def forward_propagation(w1,b1,w2,b2,w3,b3,x0):
y1 = phi(x0.dot(w1)+ b1)
y2 = phi(y1.dot(w2)+ b2)
y3 = softmax(y2。 dot(w3)+ b3)
返回y1,y2,y3
为了与上面的表达式进行比较,我们编写:
y2 = phi(phi(x0.dot(w1)+ b1).dot(w2)+ b2)
对应关系可以变得更清楚:
两个世界之间的联系
因此,我们得出的结论是,由Kolmogorov,Arnold和Sprecher证明的结果表明,其输出仅是函数的重复组成而已,其结果仅是神经网络,它们是极其强大的对象,可以表示自然界中的任何多元函数或几乎任何过程。 。这部分地解释了为什么神经网络在这么多领域中表现如此出色。换句话说,神经网络的泛化能力至少部分是Kolmogorov-Arnold表示定理的结果。
正如指出的朱塞佩Carleo,形成了功能的函数功能的泛化功率广告 生厌了,在某种程度上,“发现独立也自然”,因为神经网络,其作品如上图所示,正在这样做,是一种简化的方式来描述我们的大脑如何运作。
非常感谢您的阅读!总是欢迎建设性的批评和反馈!

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!