全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-6-11 04:29:48
神经网络有许多不同的变体,其结构不同(神经元如何连接);见图4.2。这些形式中最简单的是前馈神经网络,也称为多层感知器(MLP)。MLP可以用一个有向无环图来表示,因此可以看作是向前传递信息。通常,这类网络是以层的形式描述的,这些层链接在一起以创建输出函数,其中层是神经元的集合,可以将其视为计算单元。在最简单的情况下,有一个输入层和一个输出层。在这种情况下,输出j(由输出层中的第j个神经元表示)通过有偏加权和和激活函数φj连接到输入向量x:yj=φjbj+dXi=1wi,jxi!还可以在输入层和输出层之间合并其他隐藏层。例如,对于一个隐藏层,输出将变为:yk=φb(2)k+mXi=1w(2)j,k·ψb(1)j+mXi=1w(1)i,jxj!|{z}输入层到隐藏层| {z}隐藏层到输出层,其中φ,ψ:R→ R是各层的非线性激活函数,括号内的上标表示所讨论的层。我们可以将这一过程的扩展可视化为链式规则的简单应用,例如f(x)=ψd(····ψ(ψ(x))。在这里,网络的每一层由一个函数ψi表示,将先前输入和激活的加权和合并到连接的输出。图中的层数称为神经网络的深度和图4.2:神经网络架构。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:29:52
资料来源:保罗·范德莱肯:“神经网络101”(https://paulvanderlaken.com/2017/10/16/neural-networks-101)输入1输入2输入3输入4输出授权层输入层输出层输出层输出层图4.3:带一个隐藏层的前馈神经网络。一层中神经元的数量代表该特定层的宽度;见图4.3。“深度”神经网络和深度学习是指在ML问题中使用具有许多隐藏层的神经网络。添加隐藏层的优点之一是,深度可以在某些应用程序中以指数方式减少计算成本,并以指数方式减少学习某些函数所需的训练数据量。这是因为与宽浅网络相比,一些功能可以由较小的深网络表示。模型尺寸的减小提高了统计效率。很容易想象,通过改变神经网络的结构可以实现巨大的灵活性和复杂性。人们可以改变网络的深度宽度,或者对每一层甚至每一个神经元都有不同的激活功能。这种灵活性可以用来实现非常强大的结果,但会导致不透明,使我们无法理解为什么会实现任何强大的结果。接下来,我们转向如何估计神经网络参数的问题。为此,我们必须首先确定一个损失函数L(θ;x,y),该函数将确定神经网络给定参数集θ的性能,该神经网络由每层中的权重和偏差项组成。目标是找到使损失函数最小化的参数集。挑战在于神经网络的高度非线性会导致损失函数的非凸性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:29:55
非凸优化问题是非常重要的,通常我们不能保证候选解决方案是全局优化器。4.2随机梯度下降估计神经网络参数最常用的方法是基于梯度下降,这是一种优化函数的简单方法。给定函数f:Rd→ R、 我们希望确定达到f最小值的x的值。为此,我们从初始猜测x开始,并计算f在这一点上的梯度。这给出了函数中最大增长的方向。为了最小化函数,我们朝相反的方向移动,即按照:xn=xn进行迭代-1.- η · xf(xn-1) 其中η是称为学习率的步长,可以是常数,也可以是衰减的n。当梯度等于零时,算法收敛到临界点,但应注意,这不一定是全局最小值。在神经网络的背景下,我们将计算损失函数相对于参数集θ的导数(下一节将对此进行详细介绍),并遵循上述步骤。使用梯度下降法训练神经网络的一个困难是,当训练集很大时,与该过程相关的计算成本。这就需要使用这种算法的扩展,称为随机梯度下降(SGD)。当我们要最小化的损失函数是加法函数时,它可以写成:L(θ;x,y)=mmXi=1θLiθ; x(i),y(i)其中m是训练集的大小,li是每个示例的损失函数。SGD中的方法是将梯度视为期望值,并使用称为小批量的训练集的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:29:58
也就是说,对于尺寸为Mt的固定小批量,梯度估计为:θL(θ;x,y)≈m级θmXi=1Liθ; x(i),y(i)然后朝相反方向采取通常的步骤(最陡下降)。4.3反向传播前一节中描述的随机梯度下降优化方法需要重复计算高度非线性函数的梯度。反向传播提供了一种计算效率高的方法,可以实现这一点。它基于递归应用链规则和定义计算图来理解哪些计算可以并行运行。如前几节所述,前馈神经网络可被视为通过评估由简单函数组成序列定义的函数来接收输入x并计算输出y。这些简单的函数可以看作是神经网络图中节点之间的操作。考虑到这一点,如果节点之间的操作有足够的信息,可以通过链式规则的应用程序分析计算y相对于x的导数。反向传播算法遍历该图,重复计算链规则,直到输出y相对于通过第二计算图象征性表示的xis的导数;见图4.4。WXYZFFWXYZFFDXDWDYDXDZDYFFFDZDW×dzdx×图4.4:通过计算图可视化反向传播算法。左面板显示连接输入和输出的函数的组成;右面板显示了如何使用链式规则计算导数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:01
资料来源:Goodfello等人(2016年)计算计算图中导数的两种主要方法输入一个数值,然后计算该值的导数,返回PyTorch(PyTorch.org)中的数字,或计算asymbolic变量的导数,然后将派生操作存储到添加到图中的新节点中,以便以后在TensorFlow(TensorFlow.org)中使用。后一种方法的优点是,通过再次运行反向传播,可以从该扩展图计算高阶导数。反向传播算法最多需要0n具有n个节点的图的操作,最多存储On新节点。实际上,大多数前馈神经网络都是以链式方式设计的,这反过来又将操作和新存储的数量减少到O(n),从而使导数计算成为一种相对的堆操作。4.4总结概括而言,训练神经网络大致由三部分组成:1。定义神经网络的结构和损失函数,也知道模型的超参数;2、利用随机梯度下降法寻找损失最小值;3、使用反向传播计算损失函数的导数。这在图4.5.1中有更详细的数学描述。通过设置神经网络的深度(层数)、宽度(每层神经元的数量)和激活功能2,确定神经网络的架构。确定损失函数L(θ;x,y)、最小批量和学习率η3。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:04
最小化损失函数以确定最佳θ:(a)初始化参数集,θ(b)随机抽样一小批mtraining示例x(i),y(i)(c) 计算采样小批次的损失函数θi;x(i),y(i)(d) 计算梯度θLθi;x(i),y(i)使用反向传播(e)使用估计的梯度更新基于SGD的θi:θi+1=θi- η · θL(θi;x(i),y(i))(f)重复步骤(b)-(e),直到kθi+1- θik很小。图4.5:神经网络的参数估计程序。4.5普适近似定理一个重要的理论结果是普适近似定理,它揭示了神经网络为何表现良好,参见Cybenko(1989)和Hornik(1991)。简单地说,这个结果表明,定义在RN的紧致子集上的任何连续函数都可以通过一个具有单个隐层的前馈网络很好地逼近。在数学上,定理的表述如下:设φ为一个非常数、有界、单调递增的连续函数,并设im表示多维单位超立方体。那么,如果 > 0和任何定义为m的函数,存在N、vi、bi、w,使得近似函数:f(x)=NXi=1viφ(w·x+bi)满足| f(x)- f(x)|< 对于所有x∈ 感应电动机。这个结果的一个显著方面是,激活函数独立于我们希望近似的函数!然而,应该注意的是,该定理没有说明隐藏层中需要多少神经元才能达到所需的近似误差,也没有说明该网络参数的估计是否可行。4.6其他主题4.6.1自适应动量回想一下,随机梯度下降算法由学习率η参数化,学习率η确定梯度向量给定的最陡下降方向上的步长。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:07
在实践中,该值应随着SGD算法的后续迭代而减小,以便对网络进行适当的训练。为了正确优化网络的参数集,需要选择一个适当的学习率计划,因为它可以确保在每次操作中减少多余的错误。此外,这种学习速度计划可能取决于手头问题的性质。出于上一段讨论的原因,开发了许多不同的算法,以找到一些能够指导选择有效学习率参数序列的启发式算法。受物理学启发,许多算法将梯度解释为速度向量,即参数在参数空间中移动的方向和速度。例如,动量算法将下一个速度计算为上一次迭代和新计算的梯度的加权和。这有助于最小化损失函数对参数空间某些方向的高灵敏度所导致的不稳定性,代价是引入两个新参数,即衰减因子和初始化参数η。假设这些敏感性取决于轴,我们可以对每个方向应用不同的学习速率计划,并在整个培训课程中进行调整。Kingma和Ba(2014)的工作将本节讨论的思想结合在一个称为适应性动量(Adam)的框架中。主要思想是根据特定方向偏导数的过去大小来增加/减少学习率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:10
Adam被认为对其超参数值具有鲁棒性。4.6.2消失梯度问题在我们对神经网络的分析中,我们已经确定,向网络架构中添加层可能会导致其性能的大幅提高:增加层的数量可以使网络以更有效的方式更好地近似越来越复杂的函数。在某种意义上,当前ML应用程序中深度学习的成功可以归因于这个概念。然而,这种功率的提高可以通过消失梯度问题来抵消:由于反向传播计算梯度的方式,网络越深,其损失函数对早期层中权重的导数就越小。根据激活函数的不同,在极限情况下,梯度可能会以导致权重无法正确更新的方式向下流动。直观地说,假设我们有一个由nlayers组成的深度前馈神经网络。在每次迭代中,网络的每个权重都会收到一个与误差函数相对于当前权重的梯度成比例的更新。由于这些梯度是通过反向传播使用链规则计算的,因此层越靠后,其乘以已经很小的梯度的次数就越多。4.6.3长-短期记忆和递归神经网络具有时间或位置依赖性的应用,如语音识别和自然语言处理,其中网络的每一层处理一个时间/位置步骤,特别容易出现消失梯度问题。特别是,消失梯度可能会掩盖在时间/空间上相距遥远的观测点之间的长期依赖关系。通俗地说,我们可以说,神经网络无法准确地记住过去层中的重要信息。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:13
克服这一困难的一种方法是将网络记忆的概念结合起来,训练它学习过去各层的输入应该流经当前层并传递到下一层,即应该“记住”或“忘记”多少信息这是Hochreiter和Schmidhuber(1997)提出的长-短期记忆(LSTM)网络背后的直觉。LSTM网络是一类递归神经网络(RNN),由称为LSTM单元的层组成。每一层由一个存储单元、一个输入门、一个输出门和一个遗忘门组成,该门控制信息从一层流向另一层,并允许网络学习最佳的记忆/遗忘机制。从数学上讲,过去层的部分梯度能够通过当前层直接到达下一层。通过该层的梯度大小不变(相对于变换的部分)以及丢弃的部分,也由网络学习。这将记忆方面嵌入到LSTM的体系结构中,允许它绕过消失梯度问题并学习长期依赖关系;有关单个LSTM装置的视觉表示,请参考图4.6。LSTMinput网关忘记网关输出网关XTYT-1+σ×yt×Mct-1CT图4.6:LSTM单元的架构:一个新的输入XT和最后一个单元yt的输出-1与过去的记忆信息ct结合-1生成新输出并存储新内存信息ct。资料来源:Peter Veliˇckovi\'c的《长短不一的回忆之旅》(https://www.cl.cam.ac.uk/pv273/幻灯片/幻灯片。pdf)受LSTM网络有效性的启发,并考虑到深度架构在现代ML中日益重要,Srivastava et al.(2015)设计了一个网络,允许从过去层到当前层的梯度流动。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:16
公路网使用LSTM体系结构来解决数据不连续的问题。通过添加一条“信息高速公路”,允许从早期层到中间层的梯度毫发无损地流动到网络的末端,作者能够训练非常深的网络,深度高达100层,而不会消除梯度问题。第5章深层伽辽金方法5.1简介我们现在将注意力转向神经网络在寻找偏微分方程解方面的应用。如第3章所述,当问题的维数变得太大时,基于RIDS的数值方法可能会失败。事实上,网格中的点数量在维数上呈指数增长,这可能导致计算困难。此外,即使我们假设计算成本是可管理的,确保网格的设置以确保有限差分法的稳定性也是很麻烦的。基于这一动机,Sirignano和Spiliopoulos(2018)提出了一种使用神经网络求解偏微分方程的无网格方法。深伽辽金法(DGM)使用深神经网络近似解所需的偏微分方程。通过这种参数化,建立了一个损失函数,以惩罚拟合函数偏离所需微分算子和边界条件的情况。该方法利用计算图和前一章讨论的反向传播算法有效地计算微分算子,而边界条件很容易计算。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:19
对于训练数据,网络使用从定义函数的区域随机采样的点,并使用随机梯度下降进行优化。这种方法的主要观点在于,训练数据由函数域中的随机采样点组成。通过从域的不同部分采样小批次并按顺序处理这些小批次,神经网络“学习”函数,而不存在基于网格方法的计算瓶颈。这避免了后一种方法遇到的维度诅咒。5.2数学细节感兴趣的偏微分方程的形式通常描述如下:设u为区域[0,T]上定义的时间和空间的未知函数×Ohm 哪里Ohm  Rd,并假设u满足PDE:(t+L)u(t,x)=0,(t,x)∈ [0,T]×Ohmu(0,x)=u(x),x∈ Ohm (初始条件)u(t,x)=g(t,x),(t,x)∈ [0,T]×Ohm (边界条件)目标是用参数集为θ的adeep神经网络给出的逼近函数f(t,x;θ)逼近u。关联训练问题的损失函数由三部分组成:1。衡量近似值满足微分算子的程度:(t+L)f(t,x;θ)[0,T]×Ohm, ν注:将f参数化为神经网络意味着可以使用反向传播轻松计算微分算子。2、衡量近似值满足边界条件的程度:f(t,x;θ)- g(t,x)[0,T]×Ohm, ν3. 衡量近似值满足初始条件的程度:f(0,x;θ)- u(x)Ohm, ν在上述所有三项中,误差是根据L-范数测量的,即。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:21
使用h(y)Y、 ν=RY | h(Y)|ν(Y)dy,其中ν(Y)是区域Y上定义的密度。结合上述三项,我们可以得到与训练神经网络相关的成本函数:L(θ)=(t+L)f(t,x;θ)[0,T]×Ohm,ν|{z}微分算子+f(t,x;θ)- g(t,x)[0,T]×Ohm,ν|{z}边界条件+f(0,x;θ)- u(x)Ohm,ν|{z}初始条件下一步是使用随机梯度下降最小化损失泛函。更具体地说,我们采用图5.1中定义的算法。图5.1中的描述应被视为一个总体轮廓,因为算法应根据所考虑的PDE的特殊性质进行修改。1、初始化参数集θ和学习率αn.2。从域的内部和时间/空间边界生成随机样本,即从[0,T]×生成(tn,xn)Ohm 根据νo从[0,T]×生成(τn,zn)Ohm 根据νo生成wnfromOhm, 根据ν3。计算当前小批量的损失函数(随机采样点sn={(tn,xn),(τn,zn),wn}):o计算L(θn;tn,xn)=((t+L)f(θn;tn,xn))o计算L(θn;τn,zn)=(f(τn,zn)- g(τn,zn))o计算L(θn;wn)=(f(0,wn)- u(wn))o计算L(θn;sn)=L(θn;tn,xn)+L(θn;τn,zn)+L(θn;zn)4。在随机点SN处采取下降步骤,基于Adam的学习率:θn+1=θn- αnθL(θn;sn)5。重复步骤(2)-(4),直到kθn+1- θnk很小。图5.1:深伽辽金法(DGM)算法。需要注意的是,这里描述的问题严格来说是一个优化问题。这与典型的机器学习应用不同,在机器学习应用中,我们关注的是欠匹配、过匹配和泛化问题。通常,得出损失函数等于零的参数集是不可取的,因为这表明存在某种形式的过度拟合。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:24
然而,在这种情况下,实现这一目标的神经网络是PDE athand的解决方案。唯一与泛化相关的情况是,我们无法在定义函数的区域内的任何地方采样点,例如无界域上定义的函数。在这种情况下,我们将有兴趣检查函数在这些未采样区域中满足PDE的程度。下一章的结果表明,这种泛化通常很差。5.3神经网络近似理论Sirignano和Spiliopoulos(2018)给出了使用神经网络近似解的理论动机,这是一个优雅的结果,与普遍近似定理类似。更具体地说,当隐层数趋于一致时,深层神经网络逼近器收敛到一类拟线性抛物型偏微分方程的解。为了用更精确的数学术语表述结果,请定义以下内容:oL(θ),用于测量神经网络对微分算子和边界/初始/终端条件的影响的损失函数;oCn,一类具有n个隐藏单元的神经网络;ofn=arg minf∈CnL(θ),对PDEsolution的最佳n层神经网络逼近。主要结果是神经网络逼近器收敛到truePDE解:fn→ u为n→ ∞更多细节、条件、定理陈述和证明见Sirignano和Spiliopoulos(2018)第7节。应该注意的是,与通用近似定理类似,该结果并没有规定一种成功设计或估计神经网络的方法。5.4实施细节Sirignano和Spiliopoulos(2018)采用的架构类似于前一章中描述的STMS和公路网。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:27
它由三层组成,我们称之为DGM层:输入层、隐藏层和输出层,尽管这可以很容易地扩展以允许额外的隐藏层。从鸟瞰的角度来看,每个DGM层将原始minibatch输入x(在我们的示例中,这是随机采样的时空点集)和前一个DGM层的输出作为输入。该过程以向量值输出y结束,该输出y由在小批量点处评估的所需函数u的神经网络近似值组成。整体架构的可视化见图5.2。w·x+bSxDGM LayerDGM LAYERSG LayerSL+1w·SL+1+乘以σ图5.2:DGM总体架构鸟瞰图。在DGM层中,通过一系列与公路网中的操作非常相似的操作来转换前一层的小批量输入和输出。下面,我们展示了方程式中的架构以及图5.3中单个DGM层的视觉表示:S=σw·x+bZ`=σuz、`·x+wz、`·S`+bz、`` = 1.LG`=σug、`·x+wg、`·S`+bg、`` = 1.LR`=σur,`·x+wr,`·S`+br`` = 1.LH`=σ呃,`·x+wh`·S` R`+ 伯克希尔哈撒韦`` = 1.LS`+1=1.- G级` H`+Z` S`=1。。。,Lf(t,x;θ)=w·SL+1+b此处 表示Hadamard(元素级)乘法,L是总层数,σ是激活函数,具有各种上标的u、w和b项是模型参数。与LSTMs的直觉类似,每一层都基于最后一层生成权重,确定有多少信息传递给下一层。Insignano和Spiliopoulos(2018)的作者还认为,包括非线性函数的重复元素乘法有助于捕捉更复杂函数中出现的“急转”特征。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:30
注意,在每次迭代时,原始输入进入每个中间步骤的计算,从而降低输出函数相对于x的梯度消失的概率。与多层感知器(MLP)相比,DGM网络每个隐藏层中的参数数量大约是相同的LDXUZ·x+wz·S+bzug·x+wg·S+bgur·x+wr·S+bhZGR的八倍(1- G) H+Z Suh·x+wh·(S) R) +bhHSnew∑∑∑∑∑图5.3:单个DGM层内的操作。通常密集层中的数量。由于每个DGM网络层有8个权重矩阵和4个偏差向量,而MLP网络只有一个权重矩阵和一个偏差向量(假设矩阵/向量大小彼此相似)。因此,与深度MLP不同,DGM体系结构能够处理渐变消失的问题,同时具有足够的灵活性来建模复杂功能。关于Hessian实现的备注:二阶微分方程需要计算二阶导数。原则上,给定一个深度神经网络f(t,x;θ),通过自动微分计算高阶导数是可能的。但是,给定x∈ r对于n>1的情况,由于二阶导数的平方数以及算法计算较大小批量的该数量的内存不足,这些导数的计算在计算上变得非常昂贵。因此,我们按照第3章中讨论的方法实现了一种有限差分方法来计算Hessian。特别是,对于每个样本点x,我们计算神经网络的值及其在点x+hejand x的梯度- hej,对于每个正则向量ej,其中h是步长,并通过中心微分估计Hessian,从而得到O(h)阶精度。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:33
然后,通过变换0.5(H+HT)对所得矩阵H进行对称化。第6章深伽辽金方法的实施本章中,我们应用深伽辽金方法来解决金融环境中出现的各种偏微分方程,如第2章所述。将神经网络应用于数值求解偏微分方程(以及其他问题)需要大量的实验和实施决策。即使有使用DGM方法的基本策略,也有许多决策需要做出,包括:o网络架构;o用于在执行时间和准确性之间实现良好平衡的神经网络的大小;o激活函数和其他超参数的选择;o随机抽样策略、优化和数值(如微分和积分)算法的选择、训练强度编程环境。有鉴于此,我们的方法是从简单且更易管理的PDE开始,然后随着绊脚石逐渐被克服,转向更具挑战性的障碍。我们给出了将DGM应用于以下问题的结果:1。欧洲看涨期权:我们从Black-Scholes偏微分方程开始,这是一种线性偏微分方程,具有简单的分析解,是金融领域的主力模型。这也为其余问题创建了基本设置。美式看跌期权:接下来,我们讨论美式期权,其主要挑战是自由边界问题,需要找到自由边界问题作为问题解决方案的一部分。这要求我们调整算法(尤其是损失函数)来处理问题的这一特定细节。3、福克-普朗克方程:随后,我们讨论了福克-普朗克方程,其解是一个概率密度函数,该函数具有特殊的约束条件(例如在其域上为正并积分为1),该方法需要满足这些约束条件。4.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:36
随机最优控制问题:对于更高要求的挑战,我们关注HJB方程,它可能是高度非线性的。特别地,我们考虑了两个最优控制问题:默顿问题和最优执行问题。系统风险:系统风险问题允许我们将该方法应用于多维HJB方程组,该方程组涉及多个变量和高度非线性的方程组。平均场对策:最后,我们用平均场对策来结束我们的工作,平均场对策是由熟悉的HJB和福克-普朗克方程组成的。我们成功应用该方法解决的各种问题证明了DGM方法的威力和灵活性。6.1本章的组织方式本章的每一节都强调了上述列表中提到的一个案例研究。我们从PDE及其解析解的陈述开始,然后提出(可能有几个)基于DGM方法的尝试性数值解。演示的方式突出了我们实现的体验方面。因此,我们提出的第一个解决方案是nomeans提出的,我们希望展示围绕DGM的学习过程,以及我们的解决方案是如何改进的。每一个例子都是为了强调所面临的不同挑战——通常与问题的多样性有关,而这一问题的例子通常越来越多——以及谚语中的“故事的道德性”一个重要的警告是,在某些情况下,我们无法解决所有问题,因为在每一节开头给出的PDE并不总是以其原始形式出现。原因是PDE可能太复杂,无法直接在DGM框架中实现。HJB方程尤其如此,它将优化步骤作为一阶条件的一部分。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:39
在这些情况下,我们要么使用简化的ansatzes获得PDE的简化版本,但我们强调,即使是这些也可能有很大的困难。备注(关于实现的说明):在所有即将到来的示例中,我们使用Sirignano和Spiliopoulos(2018)使用的samenetwork架构,见第5章,使用Xavier初始化权重。对网络进行了多次迭代(历次)训练,这些迭代可能因示例而异,每10次迭代对内部和终端条件下的点进行随机重采样。我们还对规则密集前馈神经网络进行了实验,并成功地解决了第一个问题(欧洲选项),但我们发现它们不太可能拟合更不规则的函数,也更不稳定的超参数变化。6.2欧洲呼叫选项1:一维Black-Scholes PDE(tg(t,x)+rx·xg(t,x)+σx·xxg(t,x)=r·g(t,x)g(t,x)=g(x)溶液:g(t,x)=xΦ(d+)- Ke公司-r(T-t) Φ(d-)式中,d±=ln(x/K)+(r±σ)(T-t) σ√T-作为DGM方法的第一个示例,我们对网络进行了培训,以了解欧洲看涨期权的价值。在我们的实验中,我们使用利率r=5%,波动率σ=25%,初始股票价格S=50,到期时间T=1,期权的执行价格K=50。在图6.2中,我们给出了到期前不同时间的真实值和估计值。首先,我们在时间域上均匀采样,并根据空间域上的对数正态分布进行采样,因为这是该模型中股票价格遵循的精确分布。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:42
我们还在终点时间点均匀取样。然而,我们发现这对于估计的函数并没有产生好的结果。这些采样点和fits可以在图6.1和图6.2中的绿色点和线中看到。图6.1:不同的抽样方案:对数正态分布(绿色)、均匀分布于[0,1]×[0,100](蓝色)和均匀分布于[0,1]×[0,130](红色)由于问题似乎出现在抽样不充分的地区,我们回到Sirignano和Spiliopoulos(2018)的方法,并在感兴趣的地区均匀分布于[0,1]×[0,100]。这改善了fit,如图6.2的蓝线所示,然而,图的右端仍然存在问题,最终溶液浸泡得太早。最后,我们在[0,1]×[0,130]上的感兴趣区域之外均匀采样,以显示位于感兴趣区域右侧的DGM网络点。这产生了最好的效果,如图6.2中的红线所示。另一点值得注意的是,对于接近成熟期的时间,误差较小。这种行为的原因可能是因为评估过程是从终端条件“提取信息”。由于此项是显式惩罚项,并且从中进行了大量采样,因此这会导致estimatedfunction在该区域中表现良好。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:45
当我们离开这个时间点时,这种稳定作用减弱,导致错误增加。图6.2:看涨期权价格作为股价的函数:黑色虚线是真实值函数,使用black和Scholes公式计算;绿色、蓝色和红色线条对应上述三种采样方法。寓意:抽样方法很重要!6.3美式看跌期权2:带自由边界的Black-Scholes PDEtg+rx·xg+σx·xxg- r·g=0{(t,x):g(t,x)>g(x)}g(t,x)≥ G(x)(t,x)∈ [0,T]×Rg(T,x)=G(x)x∈ rw其中G(x)=(K- x) +溶液:无分析溶液。为了进一步测试DGM网络的能力,我们对网络进行了培训,以了解美式看跌期权的价值。与欧洲变体相比,这是朝着增加复杂性迈出的一步,因为美式期权PDE公式包括自由边界条件。我们使用与欧式看涨期权相同的参数:r=5%,σ=25%,S=50,T=1和K=50。在我们的第一次尝试中,我们使用Sirignano和Spiliopoulos(2018)规定的方法对网络进行了培训。解决自由边界问题的方法是在感兴趣的区域(t)上均匀采样∈ [0,1],S∈ (在我们的案例中为0,100),并接受/拒绝该特定批次点的训练示例,这取决于它们是否在最后一次迭代训练所暗示的边界区域之内或之外。这种方法能够正确地恢复optionvalues。作为一种替代方法,我们使用了不同的损失函数公式,该公式考虑了自由边界条件,而不是接受/拒绝方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:48
特别是,我们对所有违反条件{(t,x):g(t,x)的点应用了损失≥ G(x)}通过:最大值{-(f(t,x;θ)- (K)- x) +),0}[0,T]×Ohm, ν图6.3比较了使用交替不平等损失(Alternative不等式loss)和有限差分法(Finite difference Method)获得的不同到期日的DGM固定期权价格。图中显示,我们成功地利用该损失函数复制了期权价格。图6.4描述了估计看跌期权价值与Black-Scholes公式给出的相应欧洲看跌期权分析价格之间的绝对误差。由于两者在延拓区域应相等,因此这可以间接获得早期练习边界。黑线是通过有限差分法获得的边界,我们发现它与我们的隐含运动边界非常匹配。随着时间的推移,两种期权价格之间的差额在边界以下的减少反映了美式期权早期行使期权性的恶化。寓意:失去功能很重要!图6.3:使用DGM(红色)与有限差分法(蓝色)计算的不同到期日的美国看跌期权价格的比较图6.4:DGM估计的美国看跌期权价格与相应欧洲看跌期权分析解之间的绝对差异。6.4福克-普朗克方程3:具有随机高斯起点的OU过程的福克-普朗克方程tp+κ·p+κ(x- θ) · xp系统-σ· xxp=0(t,x)∈ R+×Rp(0,x)=√2πv·e-X2V解:高斯密度函数。福克-普朗克方程在解决方案的约束形式中引入了一个新的困难。我们将DGM方法应用于Ornstein–Uhlenbeck均值回复过程的福克-普朗克方程。如果流程从x点开始,即。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:51
它的初始分布是x处的Dirac delta,那么这个偏微分方程的解已知具有正态分布xt~ Nx·e-κ(T-t) +θ1.- e-κ(T-t),σ2κ1.- e-2κ(T-t)由于无法用数字直接表示初始增量,因此必须对其进行近似,例如,使用均值为X且方差较小的正态分布。在起点为高斯的情况下,我们使用蒙特卡罗模拟来确定每个时间点的分布,但我们注意到,由于我们基本上使用的是共轭先验,因此分布应为高斯分布。对于DGM算法,我们对微分方程本身、初始条件使用损失函数项,并添加惩罚以反映非负性约束。虽然我们打算加入另一个术语来迫使解的积分等于1,但这在计算上过于昂贵,因为必须在网络训练阶段的每一步对积分进行数值计算。对于参数θ=0.5、σ=2、T=1、κ=0,与模拟分布相比,图6.5显示了密度估计p在不同时间点作为位置x的函数。从这些图中可以看出,固定分布在尾部周围以及固定曲线的总体高度上存在问题,即固定密度未整合到1。神经网络估计在正确逼近初始条件的同时,无法在时间上保持概率质量和高斯钟形。为了改进结果,我们应用了变量的变化:p(t,x)=e-u(t,x)c(t)图6.5:XT在不同时间的分布。蓝色条对应于模拟值的历史图;红线对应于所需Fokkerplank方程的DGM解。其中c(t)是归一化常数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:54
这相当于构建一个指数化的规范化神经网络,确保其保持正态并集成到统一。该方法提供了一种可通过DGM方法解决的替代PDE:tu+κ(x- θ)徐-σxxu型- (徐)= κ+R(tu)e-udxRe公司-UDX请注意,新方程是一个依赖于积分项的非线性偏微分方程。为了处理积分项并避免在每一步进行昂贵的数值积分操作,我们首先从t∈ [0,T]和{xk}Nxq=1from[xmin,xmax],然后,对于每个tj,我们使用重要性抽样来近似期望项:=nxk=1(tu(tj,xk))w(xk),其中w(xk)=eu(tj,xk)PNxk=1eu(tj,xk)注意,由于均匀分布的密度在采样区域内是恒定的,因此取消了权重的分母项。然后,LLOS近似为:NtNxNtXj=1NxXk=1(t+L)u(tj,xk,It,θ),尽管所得方程更复杂,但使用此技术通过求解u(x,t)并转换回p(x,t)来训练网络,使我们能够获得更强的结果,如图6.6中的曲线图所示。图6.6:XT在不同时间的分布。蓝色条对应于模拟值的历史图;红线对应于使用修正方法得到的所需福克普朗克方程的DGM解。请注意,网络能够准确地恢复形状,并跨时间步长保留概率质量。有趣的是,在此示例中,PDE中的线性损失对于能够解决问题来说并不重要,而重要的是将适当的结构强加给所需的函数。寓意:先验知识很重要!6.5随机最优控制问题在本节中,我们处理一对非线性HJB方程。兴趣在于价值函数和最优控制。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:30:57
HJBequations的原始形式包含一个很难处理的优化项(一阶条件)。在这里,我们正在使用简化的PDE,一旦反馈形式的最优控制被替换回来,ansatz可能被用来进一步简化。由于我们对值函数和最优控制都感兴趣,并且最优控制是根据值函数的导数编写的,因此需要进一步对DGM输出进行数值微分(基于微分)以实现最优控制。6.5.1默顿问题4:默顿问题-指数效用最优投资(tH公司-λ2σ(xH)xxH+rxH=0(t,x)∈ R+×RH(T,q)=-αq解(值函数与最优控制):H(t,x)=-exph公司-xγer(T-t)-λ(T-t) iπ*t=λγσe-r(T-t) 式中λ=u- rσ在本节中,我们尝试用指数效用来求解默顿问题的HJB方程。在我们的首次尝试中,我们发现上述方程分母中出现的二阶导数在问题的数值解中产生了很大的不稳定性。因此,我们通过乘以得到以下等式:-λ2σ(xH)+xxH公司tH公司-λ2σ+rxH= 0在该公式中,方程成为准线性偏微分方程,在数值上更稳定。用参数r=0.05、σ=0.25、u=0.2和γ=1求解方程,终点时间T=1,区域(T,x)∈ [0,1],在x轴上进行50%的过采样。图6.7:默顿问题的近似(红色)与分析(蓝色)值函数。图6.8:默顿问题值函数近似解和解析解之间的绝对(左图)和相对(右图)误差。图6.9:近似值(红色)与。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:31:00
默顿问题的解析(蓝色)最优控制。图6.10:最优控制近似解和解析解之间的绝对(左图)和相对(右图)误差。将估值函数(图6.7和6.8)和最优控制(图6.9)与下面的解析解进行比较。通过对图的检验,我们发现神经网络能够很好地估计值函数。但请注意,在t=0时,近似解和解析解之间的误差较大,但在可接受的范围内。这可能再次是因为终端条件对解决方案的稳定作用随着我们离开该时间点而减弱。一般来说,我们对与HJB方程相关的最优控制感兴趣。在这种情况下,最优控制包括除以值函数的二阶导数,该值函数在某些区域似乎很小。如图6.9和6.10所示,这会导致计算解中的误差传播。近似值似乎在t=1时相当接近,但在t变为0时会迅速发散。请注意,值函数解中误差较小的区域对应于最优控制中的较大误差。6.5.2最优执行5:具有永久和临时价格影响的最优清算(th(t,q)- φq+4κ(bq+qh(t,q))=0(t,q)∈ R+×Rh(T,q)=-αq溶液:h(t)=pkφ·1+ζe2γ(t-t) 1个- ζe2γ(T-t) ·q其中γ=rφk,ζ=α-b类+√kφα-b-√kφ对于第二个非线性HJB方程,用参数k=0.01,b=0.001,φ=0.1,α=0.1,从t=0到终点t=t=1,用q∈ 【0,5】,q轴过采样50%。下图中的近似值显示出与真值函数的良好拟合。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:31:03
方程的最优控制解仅取决于解的一阶导数,因此误差传播不像前一个问题中的误差传播那么大,如计算解中所示,其中存在良好的t,当q变为0,t变为t时,误差传播会恶化。图6.11:最佳执行问题的近似值(红色)与真值(蓝色)函数。图6.12:最优执行问题的valuefunction的近似解和解析解之间的绝对误差。图6.13:optimalexecution问题的近似(红色)与真实(蓝色)最优交易率。图6.14:最优执行问题中最优控制近似解和解析解之间的绝对误差。寓意:从价值函数到最优控制是不平凡的!6.6系统性风险6:系统性风险tVi+NXj=1a(x- xj)- jVj公司jVi+σNXj,k=1ρ+δjk(1- ρ)jkVi公司+( - q)x个- xi+iVi公司= 0Vi(T,x)=cx个- xi对于i=1。。。,N、 解:Vi(t,x)=η(t)x个- xi+ u(t)αi,*t型=q+1.-N· η(t)Xt公司- 退出式中η(t)=-( - q)e(δ+-δ-)(T-t)- 1.- cδ+e(δ+-δ-)(T-t)- δ-δ-e(δ+-δ-)(T-t)- δ+- c(1-N)e(δ+-δ-)(T-t)- 1.u(t)=σ(1- ρ)1.-NZTtη(s)dsδ±=-(a+q)±√R、 R=(a+q)+1.-N( - q) 系统性风险问题带来了我们的第一个HJB方程组(碰巧也是非线性的)。这一问题在两人(N=2)情况下得到解决,相关系数ρ=0.5,σ=0.1,a=1,q=1, = 10,c=1,从t=0到终端时间t=t=1,带(x,x)∈ 【0,10】×【0,10】,并将结果与分析溶液进行比较。请注意,解析解有两个对称性,一个位于两个播放器的值函数之间,另一个位于x=xline周围。神经网络解决方案捕获了这两种对称性,符合该系统的解析解。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:31:06
在对称轴上发现了误差最大的区域,当t变为0时,但在远离这些区域时,解中的误差变得非常低。一旦再次发生,这可能归因于终端条件的影响。图6.15:系统性风险问题的分析解决方案。图6.16:系统性风险问题的神经网络解决方案。图6.17:系统性风险问题近似解和分析解之间的绝对误差。图6.18:系统性风险问题近似解和分析解之间的相对误差。对于具有上述相同参数的五个参与者,系统性风险问题也得到了解决,以测试该方法在系统变量数量和方程数量方面的高维度能力。在下面的图表中,我们比较了一个球员在偏离时的价值函数x从x的初始状态开始,x=5。请注意,所有玩家都具有相同的对称值函数。图显示,使用DGM方法训练的神经网络开始捕捉解的整体形状,尽管与解析解仍有相当大的偏差。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:31:09
这表明,更多的训练时间,或更好的训练程序,最终应该以一定程度的准确性获得真正的解决方案。图6.19:五家参与者系统性风险问题的分析解决方案。图6.20:五个参与者系统性风险问题的神经网络解决方案。6.7平均场博弈7:具有相同偏好的平均场中的最优清算- κuq=tha公司- φaq+(qha)4k(HJB方程-最优性)Ha(T,x,S,q;u)=x+q(S- αaq)(HJB终端条件)tm+qm级·ha(t,q)2k= 0(FP方程-密度流)m(0,q,a)=m(q,a)(FP初始条件)ut=Z(q,a)ha(t,q)2km(t,dq,da)(净交易流量)解决方案:见Cardaliaguet和Lehalle(2017)。MFG问题的主要挑战是它同时涉及HJB方程和福克-普朗克方程。此外,由福克·普朗克方程控制的密度必须在其域上保持为正,并像我们之前看到的那样积分为一。考虑到积分项u的计算成本很高,且福克-普朗克方程中的密度有一些必须满足的约束条件,制造问题的天真实现产生了糟糕的结果。使用第6.4节中使用的相同的指数化和归一化思想,我们重写了密度m(t,q,a)=c(t)e-u(t,q,a)获得函数u的PDE:-tu+2k(-qu公司qv+qqv)+R(tu)e-udxRe公司-udx=0这两个积分项都是通过重要性抽样处理的,如具有指数变换的福克-普朗克方程。用参数A,φ,α,k=1,终止时间T=1对方程进行数值求解。初始质量分布为正态分布,平均值为5,方差为0.25。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:31:12
计算t的结果∈ [0,1]和q∈ [0, 10].将值函数、最优控制以及质量通过时间的期望值与解析解进行了比较(概率质量的解析解不可用;但是可以通过解析计算该分布的期望值)。值函数和最优控制的解析解在该问题的可接受范围内,但应注意的是,对于t=0,近似值随着q的增长而发散,但仍然相当好。拟合密度的隐含期望值与分析解有很好的拟合。概率质量无法与解析解进行比较,但有理由相信,在给出剩余结果的情况下,它与真实解非常接近。图6.21:MFG问题值函数的近似(红色)与解析解。图6.22:theMFG问题最优控制的近似(红色)与解析解。图6.23:制造问题药剂分布预期值的近似(红色)与分析解。图6.24:制造商库存的非标准化概率质量;随着所有交易者的清算,曲线向左移动。6.8结论和未来工作DGM实施的主要信息可归纳为三点:1。抽样方法很重要:类似于在有限差分方法中选择网格,用于训练的抽样随机点的选择位置和方式是决定结果质量的唯一最重要因素。2、先验知识事项:掌握有关解的一些信息可以极大地提高近似值的准确性。事实证明,这在福克·普朗克和制造业的应用中是仪器。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 04:31:15
它也适用于有限差分法甚至蒙特卡罗法(一个很好的类比是使用控制变量)。3、训练时间问题:在某些情况下,包括我们之前的一些尝试,损失函数似乎随着迭代而减少,解决方案的形状似乎朝着正确的方向移动。就像神经网络和一般基于SGD的优化一样,有时答案是让优化器运行更长时间。作为参考,Sirignano和Spiliopoulos(2018)在带有GPU集群的超级计算机上运行了该算法,并在多达200个维度上取得了优异的结果。关于运行时的最后一点特别有趣。虽然有限差分方法需要大量内存,但训练DGM网络可能需要很长时间。这暗示了一个在计算机科学中被称为时空权衡的概念。然而,应该注意的是,有限差分方法不会在高维情况下运行,而DGM(在正确执行时)将到达ata解决方案,尽管运行时间可能很长。研究用于求解偏微分方程的数值方法的时空权衡是很有意思的。正如本工作前面所讨论的,在我们的上下文中,泛化是指函数如何满足函数域中未在训练阶段采样的点或区域的PDE条件。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群