上随机控制问题的深层神经网络算法

2022-6-11 06:40:07

有限时域随机控制问题的深层神经网络算法：数值应用*Achref Bachouch+C^ome Hur'e'Nicolas Langren'e§Huy^en PhamP2020年1月28日摘要本文介绍了基于深度学习的算法在有限时间范围内离散随机控制问题中的若干数值应用，这些算法已在[Hur+18]中介绍。使用TensorFlow进行的数值和对比测试展示了我们不同算法的性能，即通过性能化（算法NNcontPI和ClassifPI）进行控制学习，通过混合迭代进行控制学习（算法hybrid Now和hybrid LaterQ），关于[EHJ17]中的100维非线性PDE样本和[CR16]中的二次倒向随机微分方程。我们还对低维控制问题进行了测试，如金融中的期权套期保值问题，以及储气库估值和微电网管理中产生的储能问题。给出了数值结果，并与量化型算法Qknn进行了比较，Qknn是数值求解低维控制问题的有效算法。关键词：深度学习、策略学习、性能迭代、价值迭代、蒙特卡罗、量化。*我们感谢两位裁判的有益评论和评论。+挪威奥斯陆大学数学系。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-11 06:40:10

作者的研究是在挪威研究委员会的支持下进行的，研究项目为随机控制、信息和应用的挑战（STOCONINF），项目编号250768/F20，math achrefb。uio。不，LPSM，巴黎大学，LPSM的狄德罗·休尔。巴黎§CSIRO Data61，澳大利亚风险实验室Nicolas。Langrene位于data61。csiro。auPLPSM，巴黎迪德罗大学和CREST-ENSAE，lspm的pham。巴黎本文作者的工作得到了ANR项目CAESARS（ANR-15-CE05-0024）以及FiME和“金融与可持续发展”EDF-CACIB主席的支持。本文致力于有限时间内离散时间随机控制问题的数值解。受控状态过程的动力学X=（Xn）n值由Xn+1=F（Xn，αn，εn+1），n=0，N- 1，X=X∈ Rd，（1.1），其中（εn）是在某些Borel空间（E，B（E））中取值的i.i.d.随机变量序列，并在某些概率空间中定义(Ohm, F、 P）配备由噪声（εn）n（平凡σ-代数）产生的过滤F=（Fn）n，控制α=（αn）nis anF自适应过程值为 Rq，F是从Rd×Rq×Einto到Rd的一个可测函数，该函数是agent已知的。给定Rd×RQ上定义的运行成本函数和Rd上定义的终端成本函数，与控制过程相关的成本函数αisJ（α）=E“N-1Xn=0f（Xn，αn）+g（Xn）#。（1.2）在此框架中，我们假设代理知道f和g。可容许控制集A是一组满足某些可积条件的控制过程α，确保成本函数J（α）定义明确。控制问题，也称为马尔科夫决策过程（MDP），由asV（x）：=infα表示∈AJ（α），（1.3），目标是找到最优控制α*∈ A、即，达到最佳值：V（x）=J（α*).

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-11 06:40:14

请注意，问题（1.1）-（1.3）也可以被视为连续时间随机控制问题的时间离散化，在这种情况下，F通常是受控扩散过程的Euler模式。众所周知，全局动态优化问题（1.3）可以通过动态规划（DP）方法简化为局部优化问题，该方法允许通过Vn（x）=g（x），x在向后递归中确定值函数∈ Rd，Vn（x）=infa∈AQn（x，a），（1.4），其中Qn（x，a）=f（x，a）+EVn+1（Xn+1）Xn=x，αn=a, （x，a）∈ Rd×A.此外，当在任何时间n通过A在DP公式（1.4）中达到最大值时*n（x）∈ 阿尔格米纳∈AQn（x，a），我们得到反馈形式的最优控制（策略），由α给出*=（a）*n（X*n））n此处X*马尔可夫过程是否由x定义*n+1=F（X*n、 a*n（X*n），εn+1），n=0，N- 1，X*= x、当状态空间维数d和控制空间维数较高时，DP公式的实际实现可能会避免维数灾难和较大的复杂性。在[Hur+18]中，我们提出了依赖深度神经网络的算法，用于逼近/学习最优策略，然后最终通过性能/策略迭代或与蒙特卡罗回归的混合迭代来逼近/学习值函数。这项研究产生了三种算法，即第2节回顾的NNcontPI算法、Hybrid Now算法和Hybrid LaterQ算法，它们可以看作是平稳随机问题强化学习社区（[SB98]）中开发的演员批评方法的自然扩展，用于确定水平控制问题。请注意，对于平稳控制问题，通常使用时间差异学习等技术来改进后者的学习，这取决于值函数和最优控制不依赖于时间这一事实。此类技术不适用于有限水平控制问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:18

在第3节中，我们对[EHJ17]中的100维非线性偏微分方程和[CR16]中的二次倒向随机微分方程以及高维线性二次随机控制问题进行了一些数值和比较测试，以说明我们的不同算法的效率。我们给出了金融中期权对冲问题的数值结果，以及天然气储存估值和微电网管理中出现的储能问题。文中给出了数值结果，并与本文介绍的量化型算法Qknn进行了比较，Qknn是数值求解低维控制问题的一种有效算法。最后，我们在第4节中总结了一些关于我们算法可能的扩展和改进的评论。2算法本节介绍四种基于神经网络的算法，用于解决离散时间随机控制问题（1.1）-（1.3）。这些算法的收敛性已在我们的配套论文[Hur+18]中进行了详细分析，出于独立的目的，本节将介绍这些算法的描述和收敛结果。在本节末尾，我们还介绍了一种基于量化和k-最近邻的算法（Qknn），该算法将作为在低维控制问题上测试我们算法的基准。给出了一类用参数函数x表示的控制策略的深层神经网络（DNN）∈ Rd7→ A（x；β）∈ A、带参数β∈ Rq和一类由参数函数表示的值函数的ofDNN:x∈ Rd7→ Φ（x；θ）∈ R、带参数θ∈ 卢比。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-11 06:40:20

回想一下，这些DNN函数A和Φ是线性组合和非线性激活函数的组合，参见【GBC16】。此外，我们将在状态间隔上获得一系列概率度量，我们称之为训练度量，并表示为（un）n-1n=0，应将其视为数据集提供者，以在n=0时学习最佳策略和值函数，N- 备注2.1（训练集设计）训练集的选择对数值效率至关重要。强化学习社区对这个问题进行了大量的研究，尤其是使用多臂bandits算法[ACBF02]，最近在数值概率文献中，参见[LM19]，但仍然是一个具有挑战性的问题。这里，考虑了两种情况来选择用于生成训练集的训练度量u，在该训练集上将计算时间n的估计值。第一种是基于知识的选择，当控制员以一定程度的信心知道为了优化其成本函数，必须推动流程时，这一选择是相关的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

可人4

2022-6-11 06:40:23

第二种情况是，当控制器不知道在何处或如何推动流程以优化成本函数时。（1）仅利用策略在基于知识的环境中，不需要对状态空间进行详尽而昂贵的（主要是时间上的）探索，控制器可以采取培训措施，在状态空间区域中分配更多的点，这些点可能会被优化驱动的过程访问。在实践中，在时间n，假设我们知道最优过程可能位于区域D中，我们选择一个训练度量，其中密度将大量权重分配给D点，例如U（D），D中的均匀分布。（2）首先探索，然后在控制器不知道在何处或如何驱动过程以优化成本函数时利用，我们建议将培训措施构建为过程的经验措施，由使用替代方法计算的最优控制估计驱动。（i）首先探索：使用另一种方法获得最佳策略的良好估计。在高维情况下：例如，可以考虑使用神经网络随时逼近控制，并通过对函数J（θ，…，θN+1）：=E“N进行全局优化来获得最佳控制的良好估计-1Xn=0f（Xn，A（Xn；θn））+g（Xn）#，其中X是在时间n时由反馈控制A（；θn）控制的过程。（ii）以后利用：采取培训措施un：=PXn，对于n=0，N- 1，其中X是使用步骤（i）中估计的最优控制驱动的；并应用程序（1）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:27

最近在[KPX18]中利用了Suchan思想。备注2.2（神经网络的选择）除非另有规定，否则我们使用具有两个或三个隐藏层和每个隐藏层d+10个神经元的前馈神经网络，因为我们从经验上注意到，这些参数足以近似此处考虑的相对平滑的目标函数。我们尝试了sigmoid、tanh、ReLU和andELU激活函数，并注意到在我们的应用程序中，ELU通常是提供最佳结果的函数。我们对每个神经网络的输入数据进行归一化，以加快后者的训练速度。2标记2.3（神经网络训练）我们使用在TensorFlow中实现的Adam优化器，初始学习率设置为0.001或0.005，这是TensorFlow中的默认值，通过梯度下降来训练最优策略和后面描述的算法中定义的值函数。当优化函数是对TensorFlow函数的期望值时，TensorFlow通过自动微分来处理Adamgradient下降过程，如通常的可微分激活函数sin、log、exp，但也有流行的不可微分激活函数，如ReLu:x 7→ 最大值（0，x）。为了使神经元的权重和偏差保持较小，我们使用了参数主要设置为0.01的L正则化，但该值可以更改，以确保正则化项在训练神经网络时加上损失时既不太强也不太弱。我们考虑有足够多的64或128大小的小批次用于培训，这基本上取决于问题的维度。我们至少使用10epochSA，当在大小为100的验证集上计算的损失增加时，停止训练。我们注意到，使用多个历元确实可以提高评估的质量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-11 06:40:30

2标记2.4（约束）所提出的算法可以在任何时候处理状态和控制约束，这在多个应用中很有用：（Xαn，αn）∈ S a.S.，n∈ N、其中S是Rd×Rq的某个给定子集。在这种情况下，为了确保允许的控件集不为空，我们假设setsA（x）：=na∈ Rq：（F（x，a，ε），a）∈ 所有x的S a.S.oare非空∈ S、现在DP公式的读数为svn（x）=infa∈A（x）f（x，a）+PaVn+1（x）, x个∈ S、从计算角度来看，处理无约束状态/控制变量可能更方便，因此，通过放松状态/控制约束，并在运行成本中引入惩罚函数L（x，a）：f（x，a）← f（x，a）+L（x，a）和g（x）←g（x）+L（x，a）。例如，如果约束集S的形式为：S={（x，a）∈ Rd×Rq:hk（x，a）=0，k=1，p、香港（x，a）≥ 0，k=p+1，q} ，对于某些函数hk，则可以将其视为惩罚函数：L（x，a）=pXk=1uk | hk（x，a）|+qXk=p+1ukmax（0，-香港（x，a））。其中uk>0是惩罚系数（实际中较大）。22.1通过性能迭代进行控制学习我们在本节中介绍了算法1，它结合了神经网络的最优策略估计和动态规划原理。我们依赖于性能操作过程，即路径总是重新计算到最终时间N.aWe，由完整训练集的历元一次通过表示。2.1.1算法NNContPI我们的第一个算法，简称NNContPI，是针对具有连续控制空间的控制问题而设计的，例如Rqor Rq中的一个球。其主要思想是：1。表示时间n=0时的控件，N-1通过神经网络，其中输出层的激活函数取控制空间中的值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:33

例如，如果控制空间是Rq，则可以将标识函数作为输出层的激活函数；如果控制空间为[0，1]，则使用sigmod函数。2、按时间顺序向后学习最优控制的最优参数^β。特别要注意的是，时间n的最优控制的学习高度依赖于时间k=n+1时最优控制估计的准确性，N-1，之前计算过。算法1：NNContPIInput：训练分布（un）n-1n=0；输出：最优策略估计（^an）N-1n=0；对于n=n-1.0 doCompute^βn∈ argminβ∈RqE“fXn，A（Xn；β）+N-1Xk=n+1fXβk，^akXβk+ g级XβN#（2.1）其中Xn~ unand，其中XβkNk=n+1通过归纳法定义为：（Xβn+1=FXn，AXn；β, εn+1Xβk+1=FXβk，^akXβk, εk+1, 对于k=n+1，N- 1、设置^an=A（；^βn）。 ^anis是在控制空间A有限的特殊情况下，在时间n2.1.2算法ClassififPii的最优策略的估计，即Card（A）=L<∞ 对于A={A，…，aL}，可以使用分类方法：考虑以状态x为输入并返回概率向量p（x；β）=（p`（x；β））L`=1和参数β的DNN。可以使用具有ReLu激活功能的k个隐藏层、具有L个神经元的输出层和用于输出层的Softmaxbactivation函数来构建这样的ausual DNN。下面介绍的算法2就是基于这个想法，被称为Classifipi。b Softmax功能定义如下：x 7→eβxPLk=1eβkx，eβxPLk=1eβkx其中β，β是将通过梯度下降学习的部分参数。算法2：ClassifiInput：训练分布（un）n-1n=0；输出：最优策略估计（^an）N-1n=0，概率pl（.；βn）；对于n=n-1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:36

，0 dor用参数为βn的神经网络表示时间n的离散控制：an（x）=a`n（x），其中n（x）∈ argmax`=1，。。。，Lp`（x；βn），并计算最佳参数：^βn∈ argminβ∈RqE“LX`=1p`（Xn；β）f（Xn，a`）+N-1Xk=n+1fX\'k，^ak（X\'k）+ g（X\'N）#,（2.2）其中Xn~ unon Rd，X\'n+1=F（Xn，a\'，εn+1），X\'k+1=F（X\'k，^ak（X\'k），εk+1），对于k=n+1，N- 1和 = 1.L设置^an（.）=a^\'n（.）带^n（x）∈ argmax`=1，。。。，Lp`（x；^βn）； ^anis时间最优策略的估计注意，当使用算法1和2时，时间n的最优策略的估计高度依赖于时间n+1的最优策略的估计，N-1，之前已经计算过。特别是，想要使用算法1和2的实践者需要跟踪在时间n+1，N-1为了计算时间n时最优策略的估计值。注释2.5在实践中，对于n=n- 1.0时，应通过随机梯度下降最小化期望值（2.1）和（2.2），其中，通过在时间n的初始位置的u下绘制独立样本，以及在εk下绘制独立样本，对于k=n+1，…，生成有限数量的路径（Xβk）Nk=n+1的小批次，N、在[Hur+18]中，根据神经网络对最优控制的误差逼近，以及根据随机梯度下降方法的估计误差，分析了算法1和2的收敛性，见其定理4.7。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-11 06:40:39

22.2双DNNW控制和值函数学习本节介绍了两种算法，与算法1或2相比，这两种算法只跟踪时间n+1时值函数和最优控制的估计，以便在时间n建立值函数和最优控制的估计。2.2.1立即回归（立即混合）算法3，判定为立即混合，将神经网络（neuralnetworks）的最优策略估计与动态规划原理相结合，并依赖于价值和性能迭代之间的混合过程。算法3：混合NowInput：训练分布（un）n-1n=0；输出：–最优策略估计（^an）N-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.0文件：^βn∈ argminβ∈RqEhfXn，A（Xn；β）+^Vn+1（Xβn+1）i（2.3），其中Xn~ u，Xβn+1=FXn，A（Xn；β）, εn+1）；设置^an=A（；^βn）； ^anis是时间nCompute^θn时最优策略的估计∈ argminθ∈RpE（f（Xn，^an（Xn））+^Vn+1（X^βnn+1）- Φ（Xn；θ）. （2.4）设^Vn=Φ（；^θn）；^Vnis是在NRECRK 2.6时对值函数的估计。我们可以结合算法1、2和3的不同特征来解决特定问题，例如在第3.5节中，我们设计了算法6来解决智能电网管理问题。22.2.2后回归和量化（混合LaterQ）算法4，称为混合LaterQ，将后回归和量化方法相结合，以构建值函数的估计值。算法4背后的主要思想是通过一组基函数对时间n+1处的值函数进行插值，这是基于回归的后期算法的精神，然后使用量化对时间n处的插值进行回归。通常的后回归方法要求能够计算封闭形式的条件期望，这限制了可以考虑的随机动力学和回归基础。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:42

量化的使用避免了这一限制，使Theresess-later算法更具普遍适用性。让我们首先回顾一下量化的基本成分。我们用Rd值随机变量εn+1的^εa K-quantizerof表示~ ε（通常为高斯随机变量），即网格上的离散随机变量Γ={e，…，eK} （Rd）Kde定义为ε=项目ε：=KX`=1e`ε∈C`（Γ），其中C（Γ）。，CK（Γ）是Γ的Voronoi细分，即满足C`（Γ）的欧氏空间（Rd，|.|）的Borel划分氖∈ Rd：| e- e ` |=minj=1，。。。，K | e- ej | o.^ε的离散定律的特征是^p`:=p[^ε=e`]=p[ε∈ C`（Γ）]， = 1.K、使L量化误差Kε最小的网格点（e `）-εklead是所谓的最佳K量化器，可以通过随机梯度下降法、knownas-Kohonen算法或竞争学习矢量量化（CLVQ）算法获得，该算法还提供了相关权重（^p`）估计的副产品。我们参考[PPP04]了解该算法的描述，并提到对于正态分布，最佳网格和Voronoi拟合的权重是在网站上预先计算的http://www.quantize.maths-fi.com.Algorithm4：混合侧向输入：–训练分布（un）n-1n=0；–Rd中K点的网格{e，…，eK}，权重为p，pk表示噪声的量化εn；输出：–最优策略估计（^an）N-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:45

，0文件：^βn∈ argminβ∈RqEhfXn，A（Xn；β）+^Vn+1（Xβn+1）i（2.5），其中Xn~ un，Xβn+1=FXn，A（Xn；β）, εn+1）；设置^an=A（；^βn）； ^anis是时间nCompute^θn+1时最优策略的估计∈ argminθ∈RpE^Vn+1（X^βnn+1）- Φ（Xn+1；θ）（2.6）并设置▄Vn+1=Φ（.；θn+1）；在时间n+1Set^Vn（x）=f（x，^an（x））+KX`=1p`~Vn+1时的插值F（x，^an（x），e`）;^Vnis在算法4中主要使用量化时间n时的值函数的估计来有效地逼近期望值：回顾动力学（1.1），任何函数的条件期望算子W等等式toP^aMn（x）W（x）=eW（X^aMnn+1）| Xn=X= EW（F（x，^aMn（x），ε））, x个∈ Rd，我们将通过量化来近似分析：bP^aMn（x）W（x）：=EW（F（x，^aMn（x），^ε））=KX`=1^p`WF（x，^aMn（x），e`）.观察到（2.6）的解实际上提供了一个神经网络Φ（；^θn+1），它插值了^Vn+1。因此，算法4包含一个插值步骤，而且，可以选择任何类型的距离作为损失来计算^θn+1。在（2.6）中，我们决定采用L损失，主要是因为它在我们的应用中效果最好。备注2.7（量化）在维度1中，我们使用k=21点的最佳网格和权重，量化约化和中心正态律N（0，1）；并用100个点量化维度2中的约化和中心法向定律，即N（0，1）。d维法向律最佳量化的所有网格和权重可在中获得http://www.quantize.maths-fi.com对于d=1，100.22.2.3算法3和4的一些备注正如备注2.5中所述，我们在算法3和4中的伪代码中所写的所有期望值应使用有限的训练集通过经验平均值进行近似。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:48

这些算法的收敛性已在[Hur+18]中根据神经网络的最优控制和值函数的逼近误差、基于随机梯度下降法的估计误差以及量化误差进行了分析（关于算法4，请参见其定理4.14和4.19）。算法3或4非常适合在通常情况下使用，其中值函数和时间n的最优控制非常接近值函数和时间n+1的最优控制，例如，当值函数和最优控制近似于连续时间值函数和非最优控制的时间离散化时。在这种情况下，建议遵循以下两步程序：（i）将时间n时值函数和最优控制的神经网络近似参数（即权重和偏差）初始化为时间n+1时值函数和最优控制的神经网络近似参数。（ii）对于Adam优化器，取一个非常小的学习速率参数，以保证基于梯度下降的学习过程中参数更新的稳定性。这样，就可以得到值函数和最优控制的稳定估计，这是可设计的。我们强调了这样一个事实，即这种稳定性程序在这里是适用的，因为随机梯度下降法得益于对待优化参数的良好初始猜测。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:51

与文献中提出的替代方法（如经典多项式回归）相比，这是一个优势。2.3用k-最近邻量化（Qknn算法）算法5给出了基于量化和k-最近邻方法的算法的伪码，称为Qknn，它将是所有低维控制问题的基准，将在第3节中考虑，以测试NNContPI、ClassifPI、Hybrid Now和Hybrid Later。此外，算法5与其他众所周知的低维控制问题的算法在[Bal+19]中进行了比较，这特别表明算法5在解决低维控制问题方面非常有效。实际上，在我们的实验中，只要问题的维数足够低，使得算法5可行，算法5总是优于基于立即回归或稍后回归方法的其他算法。如第2.2.2节所述，我们考虑噪声εn的K-最优量化器，即在e中K个点的网格{e，…，eK}中取值的adiscrete随机变量^ε，并具有权重p，主键。我们还考虑了网格Γn，n=0，Rd中的N个点，该区域应适当覆盖最佳驱动过程X在N=0时可能访问的Rd区域，N-1、这些网格可被视为精心选择的培训分布样本，其中在可能被最优驱动控制过程访问的区域内取更多点（有关培训措施选择的详细信息，请参见备注2.1）。算法5：QKNInput：–GridsΓk，k=0，Rd中的N；–e中K点的网格{e，…，eK}，权重为p，pk对于εnOutput的量化：–最优策略（^an）N的估计-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:54

，0 doCompute for（z，a）∈ Γn×A，^Qn（z，A）=f（z，A）+KX`=1p` bVn+1项目编号+1F（z，a，e`）, （2.7）其中ProjΓn+1是Γn+1上的欧几里德投影；^Qnis近似的Q值cat time n计算时间n^An（z）的最优控制∈ 阿格米纳∈A.^Qn（z，a）, z∈ Γn；(2.8) 此步骤使用确定性函数的经典优化算法SetBvn（z）=^Qnz、 ^安（z）, z∈ Γn；bVnis通过量化价值函数进行估计。时间n的Q值（用Qn表示）定义为以耦合状态动作（x，a）为参数的函数，并返回从时间n到时间n的预期最佳回报，当进程x处于状态x且动作a在时间n选择时；i、 e.Qn:Rd×Rq∈（x，a）7→ f（x，a）+Ean，x[Vn+1（Xn+1）]。备注2.8（2.7）给出的时间n处Q值的估计值与控制变量a不是连续的，这可能会导致运行Qknn时出现一些稳定性问题，尤其是在优化过程中（2.8）。我们参考第3.2.2节。在[Bal+19]中，详细介绍了算法5的扩展，其中Q值函数qn的估计是连续的w.r.t.控制变量。23数值应用在本节中，我们通过不同的示例测试第2节中提出的基于神经网络的算法。在高维方面，我们首先采用了[EHJ17]中已经考虑过的相同示例，以便我们可以直接将我们的结果与他们的结果进行比较，并从线性二次型控制问题中选取另一个示例，其显式解析解作为参考值。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:40:57

在低维方面，我们将我们的算法的结果与Qknn提供的结果进行了比较，Qknn作为低维控制问题的优秀基准已在第2节中介绍。3.1半线性PDE我们考虑以下梯度二次增长的半线性PDE：vt+十五- |Dxv |=0，（t，x）∈ [0，T）×Rd，v（T，x）=g（x），x∈ Rd.（3.1），通过观察任何p∈ Rd，-| p |=infa∈Rd[| a |+2a.p]，PDE（3.1）可以写成Hamilton-Jacobi-Bellman方程vt+xv+infa∈研发部|a |+2a。Dxv]=0，（t，x）∈ [0，T）×Rd，v（T，x）=g（x），x∈ Rd，（3.2）因此与随机控制问题v（t，x）=infα相关∈AEZTt |αs | ds+g（Xt，x，αT）, （3.3）其中X=Xt，X，α是由dxs=2αsds控制的受控过程+√2dWs，t≤ s≤ T、 Xt=x，W是d维布朗运动，控制过程α的值为a=Rd。控制问题（3.3）的时间离散化（时间步长h=T/N）导致离散时间控制问题（1.1）-（1.2）-（1.3），其中xαN+1=xαN+2αnh+√2hεn+1=：F（Xαn，αn，εn+1），n=0，N- 1，式中（εn）是一系列i.i.d.随机变量，其规律为n（0，Id），且成本函数j（α）=E“n-1Xn=0h |αn |+g（Xαn）#。另一方面，众所周知，（3.1）（或相当于（3.2））的显式解可以通过Hopf-Cole变换获得（参见例如[CR16]），并由v（t，x）=-自然对数进出口商品- g（x+√2重量-t）我, （t，x）∈ [0，T]×Rd.（3.4）我们选择在文献中已经考虑过的两个不同示例上进行测试：测试1在[EHJ17]中获得了一些最新的数值结果（参见[EHJ17]中的第4.3节），当T=1且g（x）=ln（（1+| x |）），维度d=100（参见[EHJ17]中的表2和图3]）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:00

他们的方法基于神经网络回归来解决与PDE（3.1）相关的BSDE表示，并为系数γ的不同值提供时间0和状态0的值函数估计。我们在图1中绘制了混合Now算法的结果。使用4核3GHz intel Core i7 CPU，Hybrid现在需要一个小时的时间才能达到0.11%的相对误差。我们想强调一个事实，【EHJ17】中提出的算法只需要330秒就能提供0.17%的相对误差。然而，根据我们的经验，使用他们的算法很难将相对误差从0.17%减少到0.11%。同时，我们相信我们的算法可以很容易地减少计算时间；第4节讨论了这方面的一些想法。可以使用的主要技巧是迁移学习（在文献中也称为预训练）：我们依赖于值函数的连续性和最优控制。r、 t.是时候声明n时刻的值函数和最优控制与n+1时刻的值函数和最优控制非常接近了。因此，可以使用步骤n+1估计的最优值来初始化时间n的值函数和最优控制的权重，降低优化器算法的学习率，并减少梯度下降算法的步骤数。所有这些过程确实加快了值函数和最优控制的学习，并确保了估计的稳定性。这样，我们可以将计算时间从一小时减少到二十分钟。我们还考虑了维度d=2中的相同问题，为此，我们绘制了X w.r.t的FirstComponent。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:03

时间在图2中，对于五条不同的布朗运动路径，其中对于每个ω，代理遵循朴素（α=0）或混合现在策略。可以看出，当终端时间较远时，两种策略非常相似；但Hybrid Now策略显然迫使X在终端时间接近时接近0，以降低终端成本。让我们提供测试1中提出的算法的进一步实现细节：o正如人们可以从（3.3）中v的表示中猜测的那样，驱动进程X大约为0可能是最佳的。因此，我们决定在时间n采用un：=（nTN）1/2（0，Id）作为培训措施，以学习时间n的最佳策略和值函数，对于n=0，N- 1.o我们用1、2和3层对算法进行了测试，以通过神经网络表示值函数和最优控制，并注意到当使用多个层时，估计的质量显著提高，但当考虑3个以上层时，估计的质量变化不大。图1:Hybrid Now估计值函数在时间0 w.r.t的相对误差用于构建最优策略Hybrid Now估计值的小批量数量。按照混合Now算法估计的最优策略，在样本大小为10000的情况下，对价值函数进行了三次正向蒙特卡罗计算。0.0 0.2 0.4 0.6 0.8 1.0t1.00.50.00.51.01.52.0X\\u 1optbenchFigure 2:X w.r.t.时间的第一个分量的五个正向模拟，当代理遵循Hybrid Now（选择蓝色）和naive strategyα=0（benchin红色）估计的最佳策略时。我们考虑维度d=2的问题。请注意，最佳策略（由Hybrid Now估计）是在终端时间较远时不采取任何行动，以避免任何运行成本，即。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:06

αopt=0；当终端时间接近时，将X推向0，以最小化终端成本。测试2算法测试在维度1中提出，终端成本为g（x）=-xγ0≤x个≤1.- 11≤X和γ∈ (0, 1). [Ric10]中已经考虑了这个问题，作者提出了一种基于PDE（3.1）BSDE表示的智能时间离散化算法，以处理BSDE驱动的二次增长，以及常用的基函数投影技术，用于近似与BSDE相关的动态规划方程中出现的条件期望。我们参考[Ric11]中的等式（13）、（14）、（15）了解所提出算法的详细信息，并参考其定理4.14了解收敛结果。当γ=1、0.5、0.1、0时，其在时间0和状态0时的valuefunction估计值在[Ric10]中可用，并已在表1的Y&R列中报告。此外，已使用闭合式公式（3.4）通过蒙特卡罗计算γ值的值函数的准确值，并在表1的列台中报告。已经对Hybrid Now和Hybrid LaterQ算法进行了测试，在Hybrid Now和Hybrid LaterQ列中报告了时间0和状态x=0时的值函数估计。我们还测试了Qknn，并在Qknn列中报告了其结果。请注意，Qknn特别适合于一维控制问题。特别是，由于状态空间的维数为d=1，因此它并不耗时。实际上，它提供了最快的结果，这并不奇怪，因为其他算法需要时间来通过梯度下降法在每个时间步n=0，…，学习最优策略和值函数，N- 1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:09

此外，表1显示Qknn是本例中最精确的算法，可能是因为它使用空间中的局部方法来估计Q值表达式中出现的条件期望。表1：使用Y&r、Hybrid Now、Hybrid Later和Qknn算法计算的时间0和状态0 w.r.t.γ的值函数。Bench报告了封闭式公式（3.4）的MC估计值。γY&R Hybrid LaterQ Hybrid Now Qknn Bench1.0-0.402-0.456-0.460-0.461-0.4640.5-0.466-0.495-0.507-0.508-0.5090.1-0.573-0.572-0.579-0.581-0.5860.0-0.620-1.000-1.000-1.000我们在本段末尾给出了不同算法的一些实现细节，作为测试2的一部分：oY&R：算法Y&R仅当使用g.Thefollowing的Lipschitz版本时才收敛使用近似值获得表1中的结果：gN（x）=（g（x）如果x 6∈ [0，N-11-γ]-否则为Nx。o现在混合：我们使用N=40个时间步对[0，T]进行时间离散化。n=0，…，时的值函数和最优控制，N- 1使用具有3个隐藏层和10+5+5个神经元的神经网络进行估计混合LaterQ：我们使用N=40个时间步对[0，T]进行时间离散。n=0时的值函数和最优控制，N- 1是使用包含10+5+5个神经元的3个隐藏层的神经网络进行估计；外部噪声量化51分Qknn：我们使用N=40个时间步对[0，T]进行时间离散化。我们用51个点来量化外部噪声εn~ N（0，1），对于N=0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:12

N并决定使用N（0，1）最优网格的20个点进行状态空间离散化。关于这一半线性偏微分方程问题的结果的主要结论是，与[EHJ17]中先前的结果相比，Hybrid现在可以更好地估计d=100维偏微分方程的解，但需要更多的时间。Hybrid Now和Hybrid Later提供了比[Ric11]中更好的结果来解决维度2中的PDE；但Qknn的表现优于Qknn，可以说Qknn非常准确。3.2一个线性二次随机测试用例我们考虑一个动态为Rd的线性受控过程，根据todXt=（BXt+Cαt）dt+pXj=1DjαtdWjt，（3.5），其中Wj，j=1，p、是独立的实布朗运动，控制过程α∈ Ai值以Rm表示，常数系数B∈ Rd×d、C、Dj∈ Rd×m，j=1，p、线性二次型随机控制问题的值函数isv（t，x）=infα∈AEhZTt（Xt，x，αs.QXt，x，αs+λ|αt |）dt+Xt，x，αt.P Xt，x，αTi，（t，x）∈ [0，T]×Rd，其中Xt，x，α是（3.5）的解，从时间T的x开始，给定一个控制过程α∈ A、 P，Q是非负对称d×d矩阵，λ>0。与此随机控制问题相关的Bellman方程是一个完全非线性的方程vt+x.Qx+infa∈R（Bx+Ca）。Dxv+a|λIm+pXj=1D | jDxvDj一= 0，在[0，T）×Rd上，v（T，x）=x。P x，x∈ 众所周知，参见[YZ99]，显式解由v（t，x）=x.K（t）x，（3.6）给出，其中K（t）是非负对称的d×d矩阵，Riccati方程的解˙K+B | K+KB+Q- KC（λIm+pXj=1D | jKDj）-1C | K=0，K（T）=P，（3.7），而最优反馈控制等于*（t，x）=-λIm+pXj=1D | jK（t）Dj-1C | K（t）x，（t，x）∈ [0，T）×Rd。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:15

（3.8）我们通过考虑时间离散化（时间steph=T/N）来数值解决该问题，这导致了动态XαN+1=XαN+（BXαN+CαN）h+DαN的离散时间控制问题√hεn+1=：F（Xαn，αn，εn+1），n=0，N- 1，式中（εn）是一系列i.i.d.随机变量，其规律为n（0，1），且成本函数j（α）=E“n-1Xn=0Xαn.QXαn+λ|αn |）h+Xαn.P Xαn#。对于数值试验，我们取m=1，p=d，以及以下参数：T=1，N=20，B=Id，C=1d，Dj=（0，…，1 |{z}第j项，…，0）>，j=1，p、 Q=p=Id，λ=1，其中我们表示1d：=（1，…，1 |{z}d次）>。数值结果我们在维度d=1、10、100中实现了我们的算法，并通过Matlabd求解的Riccati方程（3.7）将我们的解与解析解进行了比较对于d=1，我们绘制了n=0，…，时的最优控制估计，N- 图3中的1和图4中的值函数。观察到，正如预期的那样，estimatedoptimal控制是线性的，估计值函数每次都是二次的对于d=10，我们在表2中报告了v（0，X）的估计值，通过使用估计的最优策略对X进行runningforward模拟计算得出。“Riccati”是通过使用Matlab求解（3.7）计算得出的v（0，X）。我们将初始位置设置为X=1d。我们还在图5中给出了X最佳控制组件的正向模拟。观察NNContPI现在比Hybrid更精确。请注意，算法提供的估计值是有偏差的，这是由于时间离散化造成的对于d=100，我们在表3中报告了价值函数的估计，通过使用估计的最优策略对X进行正向模拟来计算。“Riccati”isv（0，X）通过使用Matlab求解（3.7）计算得出。我们将初始位置设置为X=0.11d和X=0.51d。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:18

再一次，NNContPI比Hybrid Now更精确，后者提供的估计由于时间离散化而有偏差。实施细节：我们使用分布un：=Nd（0，1）的训练集（n=0，…）实现了Hybrid Now和NNContPI，N- 1、我们表示了时间n，n=0，…，的值函数和最优控制，N-1使用两个具有d+20和d+10神经元的隐藏层，1个神经元作为输出层。我们使用Elu作为隐藏层的激活函数，使用identity作为输出层。dWe用Matlab方法ode45求解（3.7）。-3.-2.-1 0 1 2 3 4x-6.-4.-2024^α时间n=012345678910111213141516171819时的最优决策图3:Hybrid现在在时间n=0时估计的最优决策，N- 我们取d=1，N=20。我们观察到，正如最优控制的闭式公式（3.8）所预期的那样，估计值是线性的。-3.-2.-1 0 1 2 4x05101525303540^v时间n=012345678910111213141516171819时的值函数图4：值函数w.r.t.x，由Hybrid在时间n=0时估算，N- 1、我们得出kd=1，N=20。我们观察到，估计值是二次的，正如给定值函数的闭式公式（3.6）所预期的那样。对算法的评论：Hybrid现在的表现与半线性PDEexample类似，我们可以发表同样的评论。NNContPI现在比Hybrid慢得多，因为数据必须通过N-n-1表示时间n+1，…，的最优控制的神经网络，N-1，为了在时间n.0.0 2.5 5 5.0 7.5 10.0 12.5 15.0 17.5 20.0t0.00.51.01.52.02.53.03.54.0xComponent0123456789 BenchFigure 5:X w.r.t.时间的正向模拟，当X=1和d=10时，使用混合估计进行最佳驱动。前十条曲线代表X的十个分量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:21

当使用策略α=0驱动时，台架曲线表示X的一个相同分量。可以看出，最优控制倾向于降低X的每个分量的范数。表2：通过正向模拟由Hybrid Now和NNContPI估计的最优策略控制的过程，得到的v（0，X）估计值。“Riccati”是通过使用Matlab求解（3.7）计算得出的v（0，X）。我们取d=10，X=1d。在10组10000个模拟中计算平均值和标准偏差。平均stdHybrid Now 56.0 0.6NNContPI 54.3 0.1Riccati 57.1表3：通过正向模拟由Hybrid Now和NNContPI估计的最优策略控制的过程获得的v（0，X）估计。“Riccati”是通过使用Matlab求解（3.7）计算得出的v（0，X）。我们取d=100，初始位置X=0.51d，X=0.11d。在10组10000个模拟中计算平均值和标准偏差。平均stdHybrid Now 5.7 7e-3ncontpi 5.4 7e-3Riccati 5.7案例X=0.11d平均stdHybrid Now 137.1 1.3e-1NNContPI 137.4 1.4e-1Riccati 142.7案例X=0.51d3.3期权hedging我们的第三个示例来自经典的金融对冲问题。我们考虑一个投资者，他用（正）价格过程（Pn）n交易q股，我们用A中的（αn）表示 rq该期间（n，n+1）内这些资产持有的金额。为简单起见，我们假设无风险资产的价格恒定等于1（零利率）。可以方便地将返回过程介绍为：Rn+1=diag（Pn）-1（Pn+1- Pn），n=0，N-1，因此，具有投资组合策略α的投资者的自筹财富过程，从一些资本w开始，由wαn+1=wαn+αn.Rn+1，n=0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:24

N- 1，Wα=W。给定一个选项payoffh（PN），代理的目标是最小化其portfoliostrategiesα的预期平方复制错误v=infα∈AEh公司h（PN）- WαNi、在哪里是R上的凸函数。假设返回Rn，n=1，N是i.i.d，我们处于截面1的（q+1）维框架中，Xα=（Wα，P），εN=r，值为E Rq，带动力学函数F（w，p，a，r）=（w+a.rp+diag（p）r，x=（w，p）∈ R×Rq，a∈ Rq，r∈ E、运行成本函数f=0，终端成本g（w，p）=（h（p）- w）。我们在平方损失函数的情况下测试了我们的算法，即。（w） =w，当没有组合约束时，A=Rq，并将我们的数值结果与[BKL01]中导出的显式解进行比较：用ν（dr）表示Rn的分布，用？ν=E[Rn]=Rrν（dr）其平均值，用？M=E[RnR | n]表示假定可逆的分布；然后我们得到vn（w，p）=Knw- 2Zn（p）w+Cn（p），其中函数Kn>0，Zn（p）和Cn（p）在反向归纳中给出，从终端条件Kn=1开始，Zn（p）=h（p），Cn（p）=h（p），对于n=n- 1.0，byKn=Kn+11.- ν| M-1ν,Zn（p）=ZZn+1（p+diag（p）r）ν（dr）- ν| M-1ZZn+1（p+diag（p）r）rν（dr），Cn（p）=ZCn+1（p+diag（p）r）ν（dr）-Kn+1ZZn+1（p+诊断（p）r）rν（dr）|\'M-1.ZZn+1（p+诊断（p）r）rν（dr）,因此V=Kw-2Z（p）w+C（p），其中pis是初始股价。此外，最优投资组合策略由α以反馈形式给出*n=a*n（W）*n、 Pn），其中a*n（w，s）是函数*n（w，p）=？M-1.RZn+1（p+diag（p）r）rν（dr）Kn+1- νw,和W*是与α相关的最佳财富*, i、东、西*n=Wα*n、此外，首字母大写w*使V=V（w，p）最小化，称为（二次）套期保值价格由w给出*=Z（p）K。测试N=6，考虑一项资产q=1，收益率由三项式树建模：ν（dr）=π+δr++π+δ-δr-, π+ π++ π-= 1，r+=5%，r-= -5%, π+= 60%, π-= 30%.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-6-11 06:41:28

取p=100，考虑调用选项h（p）=（p- κ） +κ=100。该期权的价格定义为投资组合的初始值，当后者遵循与投资组合初始值相关的最优策略时，该投资组合的初始值可将代理的终端二次损失降至最低。在这个测试中，我们想使用不同的算法来确定通话的价格和相关的最优策略。备注3.1期权套期保值问题是线性二次型的，因此属于代理人对最优控制和价值函数有看法的一类问题。实际上，我们期望这里的最优控制是一个有效的w.r.t.w，而值函数是二次的w.r.t.w。对于这类问题，第2节中提出的算法可以很容易地进行调整，以便估计量的表达式满足ANSATZE。期权对冲问题见（3.9）和（3.10）。2数值结果在图6中，我们绘制了时间0 w.r.t w的值函数，即当代理遵循理论最优策略（基准）和由Hybrid Now或Hybrid LaterQ算法估计的最优策略时，投资组合的初始值。我们使用10000个样本执行正向蒙特卡罗，以近似W00 1 2 3 4 5 6 7 8 9 10 V（t=0，W0=W0）024681012141618200 Hybrid Now Hybrid LaterQoPt的下限。图6：在0 w.r.t.使用Hybrid Now（蓝线）或Hybrid LaterQ（绿色虚线）时的值函数估计。我们用红色绘制值函数以进行比较。可以观察到，所有算法都估计价格为4.5，但混合LaterQ在降低二次风险方面优于混合Now。时间0时的值函数（有关如何通过对偶获得值函数上界近似值的详细信息，请参见[HL17]）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-11 06:41:31

我们可以观察到，虽然所有算法的看涨期权价格大约等于4.5，但Hybrid LaterQ显然提供了比Hybrid Now更好的策略来降低终端损失的二次风险。当代理人遵循理论最优策略（红色）或估计最优策略（使用Hybrid Now（蓝色）或Hybrid LaterQ（绿色））时，我们在图7中绘制了投资组合w.r.t时间n的三条不同价值路径。我们为这些模拟设置w=100。关于Hybrid Now和Hybrid LaterQ的评论期权套期保值问题属于线性二次型控制问题，我们期望最优控制为有效的w.r.t.w，值函数为二次的w.r.t.w。因此，自然要考虑以下控制类别和函数，以便在n=0时适当逼近最优控制和值函数， . . . , N-1：上午：=（w，p）7→ A（x；β）·1，w|; β ∈ 卢比, （3.9）FM：=（w，p）7→ Φ（x；θ）·1，w，w|; θ ∈ 卢比, （3.10）其中β描述与神经网络Aa相关的参数（权重+偏差），θ描述与神经网络Φ相关的参数。符号|表示运输，而·表示内积。请注意，A的输出层（分别为Φ）中有2个（分别为3个）神经元，因此内积在（3.10）和（3.9）中有明确定义。Hybrid NowHybrid LaterQFigure 7：三次模拟代理人的财富w.r.t.时间n，对于每个ω，后者遵循理论最优策略（红色），使用Hybrid Now估计的策略（蓝色）和使用Hybrid LaterQ的策略（绿色）。我们取w=100。观察到当agent使用Hybrid LaterQ或Hybrid Now遵循估计的最优策略时，该过程的驱动与最优控制过程类似。3.4储能评估我们提出了【CL10】中研究的储能评估问题的离散时间版本。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝