上随机控制问题的深层神经网络算法

2022-6-11 06:41:37

然后，我们在第1节的二维框架中，Xα=（P，Cα），动态规划循环中的容许控制集由以下公式给出：An（C）=一∈ {-1，0，1}：c+h（c，a）∈ [Cmin，Cmax]，c∈ [最小值，最大值], n=0，N-1、测试我们将参数固定如下，以进行数值测试：ain（c）=bin（c）=0.06，aout（c）=bout（c）=0.25Ki（c）=0.01Cmax=8，Cmin=0，c=4，p=5，β=0.5，ξn+1；N（0，σ），σ=0.05，在终端惩罚函数中u=2，N=30。数值结果我们在图8中绘制了使用Qknn的时间0 w.r.t.的价值函数估计值，以及与naivedo nothing策略α=0相关的奖励函数（3.13）（参见图8中的基准）。正如所料，当AIN比aout小时，这种天真的策略表现得很好，因为在这种情况下，填充洞穴需要时间，所以代理可能不会采取任何行动，以避免在最后时刻受到任何处罚。当AIN与aout的订单相同时，很容易将洞穴填满并清空，因此代理商可以更自由地在市场上买卖天然气，而无需担心最终成本。观察值函数不是单调的，因为状态空间中的Ccomponent在有界离散集中取值（见（3.12））。ain0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4V（t=0，C0=4）-1.2-1-0.8-0.6-0.4-0.200.20.40.60.8值函数w.r.t.ainQBenchFigure 8：当代理遵循Qknn估计的策略时，通过使用大小为100000（蓝色）的样本运行前向优化蒙特卡罗，对时间0 w.r.t.ain的值函数进行估计。我们还绘制了与原始被动策略α=0（基准）相关的成本函数。请参见，对于较小的AIN值（如0.06），不执行任何操作是合理的策略。还要注意，值函数不是单调的w.r.t。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-11 06:41:40

这是由于C（3.12）的动力学。表4提供了使用ClassifPI、Hybrid Now和QKNN算法对值函数的估计。首先观察，Qknn提供的估计值大于其他算法提供的估计值，这意味着Qknn优于其他算法。第二好的算法是ClassifPI，而Hybrid现在由于控制变量运行奖励的不连续性，表现不佳，明显不稳定。表4：使用ClassifPI、Hybrid Now和Qknn算法提供的最优策略，aout=0.25、P=4和C=4，对ain不同值的V（0、P、C）估计。ainHybrid Now ClassifiFPI Qknnα=00.06-0.99-0.71-0.66-1.200.10-0.70-0.38-0.34-1.200.20-0.21 0.01 0.12-1.200.30-0.10 0.37-1.200.40 0.10 0.51 0.69-1.20最后，图9、10、11提供了Qknn、ClassifiFPI和Hybrid Now算法分别在时间5、10、15、20、25、29估计的最优决策。图9：使用Qknn在时间5、10、15、20、25、29 w.r.t.（P、C）时对能源存储估值问题的估计最优决策。注射剂（a=-1）为红色，存储（a=0）为黑色，提取（a=1）为蓝色。图10：使用ClassifPI在第5、10、15、20、25、29次w.r.t.（P、C）时对能源储备估值问题的估计最优决策。注射（a=-1）为紫色，储存（a=0）为蓝色，提取（a=1）为黄色。图11：使用Hybrid Now在第5、10、15、20、25、29次w.r.t.（P、C）时估计的最优决策。注射（a=-1）为紫色，储存（a=0）为蓝色，提取（a=1）为黄色。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-11 06:41:43

观察决策的不稳定性，这是因为我们没有像预期的那样对神经网络进行预训练（见第2.2.3节），可以在每个图上观察到，最佳策略是在价格低时注入天然气，在价格高时出售天然气，并确保在终端时间越来越近时，气体体积大于洞穴中的气体体积，以将终端成本降至最低。现在让我们对算法的实现进行评论：oQknn：表4再次表明，由于问题的低维性，Qknn提供了最佳的值函数估计。图9所示的估计最优策略是对理论策略的很好估计。图9中的三个决策区域很自然，也很容易解释：基本上，当价格高时卖出，当价格低时买入是最佳选择。然而，仔细观察就会发现，等待区域（最好什么都不做）有一个不寻常的三角形形状，这主要是由于状态空间的C分量取值的空间的离散性。我们预计这种形状很难用第2节中提出的DNN basedalgorithms复制ClassifPI：如图10所示，ClassifPI算法能够在n=0，…，时为最优控制提供准确的估计，N- 然而，后者值得注意的是，它捕捉到了等待区域的特殊三角形形状，这解释了为什么Qknn表现更好Hybrid Now：如图11所示，Hybrid Now仅能提供三个不同区域在时间n=0时的相对较低估计值，与ClassifiPI和Qknn相比，N- 1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-11 06:41:46

特别是，这些地区不稳定。在这一段的结尾，我们为我们测试的不同算法提供了一些实现细节Qknn：我们使用了第3.2.2节“半线性插值”一段中介绍的算法5的扩展。在[Bal+19]中，使用每个状态在itsk=2个最近邻上的投影来获得值函数的估计值，该值函数是连续的w.r.t。控制变量在每次n=0，N- 1、使用Brent算法在网格的每个点计算最优控制，Brent算法是Pythone中已经实现的确定性函数优化器基于神经网络的算法的实现细节：我们使用具有两个隐藏层的神经网络，ELU激活函数和20+20个神经元。输出层包含3个神经元，ClassifPI算法使用softmax激活函数，混合Now算法使用无激活函数。我们在每个时间步使用一个大小为M=60000的训练集。注意，考虑到终端成本的表达式，ReLU activationfunctions（Recti fied Linear Units）可以被认为是捕捉值函数形状的更好选择，但我们的测试显示，ELU activation functions我们可以选择其他算法来优化Q值，但在我们的测试中，Brent比我们尝试的其他选择更快，如GoldenSearch，并始终提供最佳控制的准确估计。F指数线性单位（ELU）激活函数定义为x 7→（exp（x）- 1如果x≤ 如果x>0，则为0x。提供更好的结果。在时间n=0时。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-11 06:41:49

N-1，我们采用un=U（Cmin，Cmax）作为培训措施。我们没有使用第2.2.3节中讨论的列车前技巧，这解释了图11中可以观察到的决策的不稳定性。我们对这一储能示例进行数值比较的主要结论是，Classifipi（基于DNN的分类算法）是针对离散控制空间的随机控制问题而设计的，似乎比现在更通用的混合算法更精确。然而，ClassifPI无法像Qknn那样捕捉到最优控制的不寻常的三角形形状。3.5微电网管理最后，我们考虑了一个受[Hey+18]和[JP15]中开发的连续时间模型启发的电力微电网离散时间模型；另见【Ala+19】。微电网由光伏（PV）发电厂、柴油发电机和电池储能系统（BES）组成，因此使用混合燃料和可再生能源。这些发电机组是分散的，即安装规模相当小（几千瓦功率），物理上靠近电力用户。PV通过太阳能电池板发电，发电模式（Pn）取决于天气条件。柴油发电机有两种模式：开启和关闭。打开它会消耗燃料，并产生一定量的功率αn。BES可以存储能量供以后使用，但容量和功率有限。微电网管理的目的是找到满足电力需求（Dn）n表示的最优规划，同时最大限度地降低柴油发电机的运营成本。我们表示byRn=Dn- Pn，剩余电力需求：当Rn>0时，应通过柴油或电池供电，当Rn<0时，可将剩余电力储存在电池中。固定水平N上的最优控制问题公式如下。在任何时候n=0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-11 06:41:52

N- 1，微电网管理器决定柴油发电机的发电量，要么通过将其打开：αn=0，要么通过将其打开，从而产生一个在[Amin，Amax]中取值为0<Amin<Amax<∞. 从开/关模式切换到另一开/关模式有一个固定成本κ>0，我们用时间n之前发电机{0=开，1=开}中的Mαn模式表示，即Mαn+1=1αn6=0。当柴油发电机和可再生能源提供多余的电力时，多余的电力可以储存在电池中（达到其有限的容量），以备日后使用，如果电力不足，电池会放电以满足电力需求。然后，电池充电的输入功率过程Iα由Iαn=（αn）给出- 注册护士）+∧ （Cmax- Cαn），其中Cmax是当前充电电池的最大容量Cα，而电池放电的输出功率过程Oα由Oαn=（Rn）给出- αn）+∧ 这里，我们表示p+=最大值（p，0）。为简单起见，假设电池完全有效，BES的容量电荷（Cαn）NOC（值为[0，Cmax]）根据动态Cαn+1=Cαn+Iαn演变- Oαn.（3.14）由sαn=Rn定义的不平衡过程- αn+Iαn- Oαn表示我们在满足电力供应方面做得如何：理想情况发生在Sαn=0时，即需求和发电之间的完美平衡。当Sαn>0时，这意味着需求没有得到满足，即微电网中缺少电力，当αn<0时，电力过剩。为了确保没有丢失的幂，我们对容许控制施加以下约束：Sαn≤ 0，即αn≥ 注册护士- Cαn，但当Sαn<0时，按比例成本Q惩罚过量电量-> 0.我们将剩余需求建模为均值回复过程：Rn+1=(R)R（1- ) + Rn+εn+1，其中（εn）nare i.i.d.，\'R∈ R、以及 < 1.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-11 06:41:55

微电网管理者的目标是找到使功能成本j（α）=E“N最小化的最佳（可接受）决策α-1Xn=0（αn）+κ1{Mαn6=Mαn+1}+Q-（Sαn）-#,哪里(.) 是燃油消耗的成本函数：（0）=0，例如。（a） =Kaγ，k>0，γ>0。该随机控制问题符合第1节的三维框架（另见备注2.4），控制α的值为A={0}×[Amin，Amax]，Xα=（Cα，Mα，R），噪声εn+1，从状态空间[0，Cmax]×{0，1}×R上的初始值（Cα，Mα，R）=（C，0，R）开始，并具有动力学函数f（X，A，e）=F（x，a）：=c+（a- r）+∧ （Cmax- c）- （r）-（a）+∧ ca6=0？R（1- ) + r+e,对于x=（c，m，r）∈ [0，Cmax]×{0，1}×R，a∈ {0}×[Amin，Amax]，e∈ R、运行成本函数f（x，a）=（a） +κ1m=1a=0+Q-S（x，a）-,S（x，a）=r- a+（a- r）+∧ （Cmax- c）- （r）-（a）+∧ c、零终端成本g=0，控制约束tan（x）=na∈ {0}×[阿明，Amax]：S（x，a）≤ 0o=不适用∈ {0}×[Amin，Amax]：r- c≤ ao。备注3.2基于神经网络的算法通过在运行成本中引入惩罚函数来管理状态/空间约束（见备注2.4）：f（x，a）← f（x，a）+L（x，a）L（x，a）=Q+r- c- 一+大Q+比Q大得多-. 这样，基于神经网络的最优控制估计就学会了不做出任何禁止的决策。2控制空间{0}∪【Amin，Amax】是离散空间和连续空间的混合体，这对神经网络算法来说是一个挑战。实际上，我们使用分类和标准DNN的混合物来控制：（p（x；θ），π（x；β）），值在[0，1]×Amin，Amax中，其中p（x；θ）是状态x中的翻转概率，π（x；β）是以概率1开启时的功率- p（x；θ）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-11 06:41:58

换句话说，Xn+1=（F（Xn，0，εn+1），概率p（Xn；θn）F（Xn，π（Xn；βn），εn+1），概率1- p（Xn；θn）这种方法的伪代码是专门为这个问题设计的，写在算法6中，我们将其称为ClassififHybrid。请特别注意，它是ClassifPI的混合版本。算法6：ClassififHybridInput：训练分布（un）n-1n=0；输出：–最优策略估计（^an）N-1n=0；–值函数（^Vn）N的估计-1n=0；设置^VN=g；对于n=n-1.0文件（^βn，^βn）∈ argmaxβ，βE“p（Xn；β）hf（Xn，0）+^Vn+1f（^Xn+1i+（1- p（Xn；β））hf（Xn，π（Xn；β））+^Vn+1^X1，βn+1i#，其中Xn；un，^Xn+1=F（Xn，0，εn+1），^X1，βn+1=F（Xn，π（Xn；β），εn+1）；计算^θn∈ argminθE“pXn；^βnhf（Xn，0）+^Vn+1f（^Xn+1- Φ（；θ）i+1.- pXn；^βnhf（Xn，π（Xn；βn））+^Vn+1^X1，^βnn+1- Φ（；θ）i#；设置^Vn=Φ（；^θn）；^vn是时间nTest时值函数的估计值。我们将参数设置为以下值，以比较Qknn和ClassifHybrid：N=30或200，(R)R=0.1， = 0.9，σ=0.2，Cmin=0，Cmax=1或4，C=0，K=2，γ=2，κ=0.2，Q-= 10，R=0.1，Amin=0.05，Amax=10 Q+=1000。结果图12显示了在m=Mn=0和m=Mn=1的情况下，在n=1、10、28时，Qknn估计的最佳决策。如果发电机在时间n时有效，即m=0，则蓝色曲线将保持有效的最佳区域和发电的最佳区域分开。如果发电机在时间n打开，即m=1，则蓝色曲线将最佳转动区域和最佳发电区域分开。右边有一个色阶，可以告诉你在这两种情况下产生的最佳功率是多少。请注意，最佳决策是非常有启发性的：例如，如果需求量很大，而电池电量不足，则最好能产生大量能量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-11 06:42:01

此外，如果需求为负值或电池充电足以满足需求，则最好将发电机反转。我们在图13中绘制了n=1、10、28时的估计最优决策，使用Hybrid Now算法，n=30个时间步。请注意，这些决策与使用Qknn给出的决策类似。请注意，图12和13中的曲线图看起来比[Ala+19]中得到的曲线图要好得多，其中使用了基于现在回归或以后回归的算法（具体参见[Ala+19]中的图4）；因此，Qknn和ClassififHybrid似乎比[Ala+19]中提出的算法更稳定。我们在表5中报告了通过使用Qknn和ClassifHybrid算法估计的最优策略，在10000次模拟下运行10次正向蒙特卡罗，得到的N=30时间步的值函数估计结果。观察到该混合型现在的性能优于Qknn。然而，Qknn的运行时间不到一分钟，而Hybrid现在需要七分钟。我们还在表6中报告了N=200个时间步的值函数估计值，该值函数估计值是通过使用Qknn estimatedoptimal策略在10000次模拟中运行20次前向蒙特卡罗获得的。表5：使用Qknn和ClassifHybrid算法，对N=30和Cmax=1的时间0和状态（C=0，M=0，R=0.1）的值函数进行估计。请注意，ClassififHybrid在这个问题上取得了比Qknn更好的结果。平均stdClassifHybrid 33.34 0.31Qknn 35.37 0.34表6：时间0和状态（C=0，M=0，R=0.1）时值函数的Qknn估计，n=200。平均标准偏差231.8 1.2图12：使用Qknn在时间1、10和28时估计的最佳决策，N=30个时间步。如果m=1（即发电机在时间n-1时开启），则蓝线下的区域是最好的旋转发电机的区域，如果m=0（即。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-6-11 06:42:04

发电机在时间n-1）时失效。0.0 0.2 0.4 0.6 0.8 1.0C0.60.40.20.00.20.40.60.8R对于m=00.20.40.60.81.00.0 0 0.2 0.4 0.6 0.8 1.0C0.60.20.00.20.40.60.8R对于m=10.20.40.60.81.00.0 0 0 0.2 0.4 0.8 0.8 1.51.5R对于对于m=00.20.40.60.81.01.21.41.61.80.0 0.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R，时间n=10对于m=10.250.500.751.001.251.501.750.0，时间n=100.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R对于m=00.20.40.60.81.01.21.40.0 0 0.2 0.4 0.6 0.8 1.0C1.51.00.50.00.51.01.5R对于m=10.20.40.60.81.01.21.4，n=28时的决策图13：使用ClassififHybrid估计时间1、10和28时的最佳决策，n=30个时间步。0123C01M0 25 50 75 100 125 150 175 200n1.00.50.00.5R0123C01M0 25 50 75 100 125 150 175 200N101R图14：使用Qknn优化控制（C、M、R）的两个模拟，N=200，Cmax=4。图14显示了使用Qknn估计最优策略控制的（C、M、R）的两个模拟，其中选择了N=200。特别注意Qknn决策的自然行为，即在电池无法满足需求时打开发电机，并在需求为负值或电池放电到足以满足需求时打开发电机。请注意，这些图与[Ala+19]图9中绘制的图相似。对Qknn的评论：注意，没有必要使用Qknn算法的惩罚方法来约束控制停留在An（x）中，其中x是时间n的状态，因为对于所有状态x，我们可以简单地搜索An（x）中关联的最优控制，例如使用Brent算法。对于n=0，N- 1，我们的训练集如下：n：=C×{0，1}×nR；式中，ΓC：={Cmin+i（Cmax- Cmin），i=0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-11 06:42:07

，50}，ΓnR：=ρnR+σ1-ρn1-ρΓ，其中Γ是N（0，1）量化的最佳网格，可在http://www.quantize.maths-fi.com，得51分。C组分的训练点选择与Remark2.1中讨论的勘探程序相对应，而我们为（非受控）R组分选择了具有51个点的最佳网格。对ClassifHybrid的评论：我们用100个300大小的小批次和100个时代来运行该算法。我们在时间n选择了以下训练分布：un=U（Cmin，Cmax）×U（{0，1}）×PRn，其中PRn是时间tn的（非受控）剩余需求定律。注意，这种训练分布的选择意味着我们想要探索受控过程（C，M，R）受控组件的所有可用状态，以便全局学习最优策略。由于控制空间{0}，微电网管理问题对我们的算法来说非常具有挑战性∪ 【amin，amax】是离散和连续空间的混合体，而且最优控制的选择受到约束。我们设计了ClassifHybrid，ClassifPI的一个混合版本，来解决这个问题。ClassififHybrid提供了非常好的估计，实际上表现比Qknn更好。4讨论和结论我们提出的算法设计良好，能够准确估计与各种高维控制问题相关的最优控制和值函数。此外，当在低维问题上进行测试时，他们的表现与基于蒙特卡罗basedor量化的方法一样好，这表明了他们在低维方面的效率，参见[Bal+19]和[Ala+19]。由于2（N）的昂贵训练，所提出的算法具有相当高的时间消耗成本- 1）在n=0，…，时学习值函数和最优控制的神经网络，N-然而，代理可以轻松地减少计算时间。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-11 06:42:10

第一个技巧是通过部分或全部忽略动态规划原理（DPP）来减少神经网络的数量，如【EHJ17】中所述。也可以考虑使用一个唯一的递归神经网络（RNN）（在完全忽略DPPI的情况下）或其中的几个（在部分忽略的情况下）来学习最优控制，要么全部同时学习（第一种情况），要么以向后的方式分组学习（第二种情况）。我们参考【WNMW19】了解这种精神下的算法。另一个技巧是在时间n=0，…，更快地学习值函数和最优控制，N-1通过对神经网络进行预训练。按照该方向进行的方法是在时间n将值函数估值器^Vn的权重和偏差初始化为^Vn+1中的一个。然后，我们依靠值函数w.r.t.的连续性，即时间n，期望权重从时间n到n+1不会有太大变化，因此可以通过降低梯度下降的Adam算法的学习率，并使用Kerasg中实现的早期停止程序，快速进行训练。预培训任务的另一个好处是获得w.r.t.时间估计值的稳定性，这也是一个令人愉快的特性。参考文献[ACBF02]Peter Auer、Nicol\'o Cesa Bianchi和Paul Fischer。“多臂土匪问题的有限时间分析”。《机器学习》47.2（2002），第235-256页。issn：1573-0565。内政部：10.1023/A：1013689704352。url：https://doi.org/10.1023/A:1013689704352.克莱门斯·阿拉修尔（Clemence Alasseur）、亚历山德罗·巴拉塔（Alessandro Balata）、萨哈尔·本·阿齐扎（Sahar Ben Aziza）、阿迪亚·马赫什瓦里（Aditya Maheshwari）、彼得·坦科夫（Peter Tankov）和泽维尔·瓦林（Xavier Warin）。“微电网管理的回归蒙特卡罗”。摘自：ESAIM会议记录和调查，CEMRACS 2017（2019），第46-67页。Alessandro Balata、C^ome Hur\'e、Mathieu Lauri\'ere、Huy^en Pham和IsaquePimentel。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-11 06:42:13

“一类有限维数值可解的McKeanVlasov控制问题”。摘自：ESAIM会议记录和调查，CEMRACS2017 19（2019），第114-144页。Dimitris Bertsimas、Leonid Kogan和Andrew W.Lo。“对冲衍生证券和不完全市场：ε-套利方法”。《运营研究》49.3（2001），第372-397页。[CL10]Rene Carmona和Mike Ludkovski。“储能评估：最佳切换方法”。摘自：量化金融26.1（2010），第262-304页。Jean-Francois Chassagneux和Adrien Richou。“二次BSDE的数值模拟”。《应用概率年鉴》26.1（2016），第262-304页。[EHJ17]魏南E、韩杰群和阿努夫·詹岑。“基于深度学习的高维抛物型偏微分方程和倒向随机微分方程数值方法”。《数学与统计通讯》5 5（2017），第349-380页。伊恩·古德费罗、约舒亚·本吉奥和亚伦·考维尔。深度学习。MITPress，2016年。gSee EarlyStopping callback in Keras[嘿+18]Benjamin Heymann、J.Fr'ed'eric Bonnans、Pierre Martinon、Francisco J.Silva、Fernando Lanas和Guillermo Jim'enez Est'evez。“微电网能源管理的连续最优控制方法”。《能源系统》9.1（2018），第59-77页。[HL17]皮埃尔·亨利·拉博德尔。“BSDE的深度原始-对偶算法：机器学习在CVA和IM中的应用”。In:SSRN:3071506（2017）。【Hur+18】C^ome Hur'e、Huy^en Pham、Achref Bachouch和Nicolas Langren'e.“有限地平线上随机控制问题的深度神经网络算法，第一部分：收敛性分析”。In:arXiv:1812.04300（2018）。[JP15]Daniel R.Jiang和Warren B.Powell。“单调值函数的近似动态规划算法”。《运筹学》63.6（2015），第1489-1511页。【KPX18】Steven Kou、Peng Xianhua和Xingbo Xu。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-11 06:42:16

“随机控制问题的单调通用蒙特卡罗算法”。2018年IMS概率和统计年度会议。2018年【LM19】迈克尔·卢德科夫斯基和阿迪蒂亚·马赫什瓦里。“随机存储问题的模拟方法：统计学习视角”。In：能源系统（2019年）。issn：1868-3975。内政部：10.1007/s12667-018-0318-4。url：https://doi.org/10.1007/s12667-018-0318-4.Gilles Pag\'es、Huy^en Pham和Jacques Printems。“金融数值问题的最优量化方法和应用”。《金融计算和数值方法手册》（2004），第253-297页。阿德里安·里乔。“Etude th'eorique et num'erique des'equations diff'erentiellesstochastiques r'etrogrades”。博士论文。雷恩大学，2010年1月。阿德里安·里乔。“具有二次增长驱动力的BSDE数值模拟”。《应用概率年鉴》21.5（2011），第1933-1964页。理查德·S·萨顿和安德鲁·G·巴托。强化学习。MITPress出版社，1998年。昆汀·陈伟南、约瑟夫·米凯尔和泽维尔·沃林。“半线性偏微分方程的机器学习”。摘自：《科学计算杂志》79.3（2019），第1667-1712页。【YZ99】勇炯敏、周迅宇。随机控制哈密顿系统和HJB方程。斯普林格，1999年。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群