全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1424 43
2022-06-11
英文标题:
《Deep neural networks algorithms for stochastic control problems on
  finite horizon: numerical applications》
---
作者:
Achref Bachouch, C\\^ome Hur\\\'e, Nicolas Langren\\\'e, Huyen Pham
---
最新提交年份:
2020
---
英文摘要:
  This paper presents several numerical applications of deep learning-based algorithms that have been introduced in [HPBL18]. Numerical and comparative tests using TensorFlow illustrate the performance of our different algorithms, namely control learning by performance iteration (algorithms NNcontPI and ClassifPI), control learning by hybrid iteration (algorithms Hybrid-Now and Hybrid-LaterQ), on the 100-dimensional nonlinear PDEs examples from [EHJ17] and on quadratic backward stochastic differential equations as in [CR16]. We also performed tests on low-dimension control problems such as an option hedging problem in finance, as well as energy storage problems arising in the valuation of gas storage and in microgrid management. Numerical results and comparisons to quantization-type algorithms Qknn, as an efficient algorithm to numerically solve low-dimensional control problems, are also provided; and some corresponding codes are available on https://github.com/comeh/.
---
中文摘要:
本文介绍了[HPBL18]中介绍的基于深度学习的算法的几个数值应用。使用TensorFlow进行的数值和对比测试说明了我们不同算法的性能,即通过性能迭代进行控制学习(算法NNcontPI和ClassifPI),通过混合迭代进行控制学习(算法hybrid Now和hybrid LaterQ),关于[EHJ17]中的100维非线性偏微分方程示例和[CR16]中的二次倒向随机微分方程。我们还对低维控制问题进行了测试,如金融中的期权对冲问题,以及储气库估值和微电网管理中出现的储能问题。给出了数值结果,并与数值求解低维控制问题的有效算法Qknn进行了比较;上提供了一些相应的代码https://github.com/comeh/.
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Mathematics        数学
二级分类:Probability        概率
分类描述:Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用:例如中心极限定理,大偏差,随机微分方程,统计力学模型,排队论
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-11 06:40:07
有限时域随机控制问题的深层神经网络算法:数值应用*Achref Bachouch+C^ome Hur'e'Nicolas Langren'e§Huy^en PhamP2020年1月28日摘要本文介绍了基于深度学习的算法在有限时间范围内离散随机控制问题中的若干数值应用,这些算法已在[Hur+18]中介绍。使用TensorFlow进行的数值和对比测试展示了我们不同算法的性能,即通过性能化(算法NNcontPI和ClassifPI)进行控制学习,通过混合迭代进行控制学习(算法hybrid Now和hybrid LaterQ),关于[EHJ17]中的100维非线性PDE样本和[CR16]中的二次倒向随机微分方程。我们还对低维控制问题进行了测试,如金融中的期权套期保值问题,以及储气库估值和微电网管理中产生的储能问题。给出了数值结果,并与量化型算法Qknn进行了比较,Qknn是数值求解低维控制问题的有效算法。关键词:深度学习、策略学习、性能迭代、价值迭代、蒙特卡罗、量化。*我们感谢两位裁判的有益评论和评论。+挪威奥斯陆大学数学系。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 06:40:10
作者的研究是在挪威研究委员会的支持下进行的,研究项目为随机控制、信息和应用的挑战(STOCONINF),项目编号250768/F20,math achrefb。uio。不,LPSM,巴黎大学,LPSM的狄德罗·休尔。巴黎§CSIRO Data61,澳大利亚风险实验室Nicolas。Langrene位于data61。csiro。auPLPSM,巴黎迪德罗大学和CREST-ENSAE,lspm的pham。巴黎本文作者的工作得到了ANR项目CAESARS(ANR-15-CE05-0024)以及FiME和“金融与可持续发展”EDF-CACIB主席的支持。本文致力于有限时间内离散时间随机控制问题的数值解。受控状态过程的动力学X=(Xn)n值由Xn+1=F(Xn,αn,εn+1),n=0,N- 1,X=X∈ Rd,(1.1),其中(εn)是在某些Borel空间(E,B(E))中取值的i.i.d.随机变量序列,并在某些概率空间中定义(Ohm, F、 P)配备由噪声(εn)n(平凡σ-代数)产生的过滤F=(Fn)n,控制α=(αn)nis anF自适应过程值为 Rq,F是从Rd×Rq×Einto到Rd的一个可测函数,该函数是agent已知的。给定Rd×RQ上定义的运行成本函数和Rd上定义的终端成本函数,与控制过程相关的成本函数αisJ(α)=E“N-1Xn=0f(Xn,αn)+g(Xn)#。(1.2)在此框架中,我们假设代理知道f和g。可容许控制集A是一组满足某些可积条件的控制过程α,确保成本函数J(α)定义明确。控制问题,也称为马尔科夫决策过程(MDP),由asV(x):=infα表示∈AJ(α),(1.3),目标是找到最优控制α*∈ A、 即,达到最佳值:V(x)=J(α*).
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 06:40:14
请注意,问题(1.1)-(1.3)也可以被视为连续时间随机控制问题的时间离散化,在这种情况下,F通常是受控扩散过程的Euler模式。众所周知,全局动态优化问题(1.3)可以通过动态规划(DP)方法简化为局部优化问题,该方法允许通过Vn(x)=g(x),x在向后递归中确定值函数∈ Rd,Vn(x)=infa∈AQn(x,a),(1.4),其中Qn(x,a)=f(x,a)+EVn+1(Xn+1)Xn=x,αn=a, (x,a)∈ Rd×A.此外,当在任何时间n通过A在DP公式(1.4)中达到最大值时*n(x)∈ 阿尔格米纳∈AQn(x,a),我们得到反馈形式的最优控制(策略),由α给出*=(a)*n(X*n) )n此处X*马尔可夫过程是否由x定义*n+1=F(X*n、 a*n(X*n) ,εn+1),n=0,N- 1,X*= x、 当状态空间维数d和控制空间维数较高时,DP公式的实际实现可能会避免维数灾难和较大的复杂性。在[Hur+18]中,我们提出了依赖深度神经网络的算法,用于逼近/学习最优策略,然后最终通过性能/策略迭代或与蒙特卡罗回归的混合迭代来逼近/学习值函数。这项研究产生了三种算法,即第2节回顾的NNcontPI算法、Hybrid Now算法和Hybrid LaterQ算法,它们可以看作是平稳随机问题强化学习社区([SB98])中开发的演员批评方法的自然扩展,用于确定水平控制问题。请注意,对于平稳控制问题,通常使用时间差异学习等技术来改进后者的学习,这取决于值函数和最优控制不依赖于时间这一事实。此类技术不适用于有限水平控制问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 06:40:18
在第3节中,我们对[EHJ17]中的100维非线性偏微分方程和[CR16]中的二次倒向随机微分方程以及高维线性二次随机控制问题进行了一些数值和比较测试,以说明我们的不同算法的效率。我们给出了金融中期权对冲问题的数值结果,以及天然气储存估值和微电网管理中出现的储能问题。文中给出了数值结果,并与本文介绍的量化型算法Qknn进行了比较,Qknn是数值求解低维控制问题的一种有效算法。最后,我们在第4节中总结了一些关于我们算法可能的扩展和改进的评论。2算法本节介绍四种基于神经网络的算法,用于解决离散时间随机控制问题(1.1)-(1.3)。这些算法的收敛性已在我们的配套论文[Hur+18]中进行了详细分析,出于独立的目的,本节将介绍这些算法的描述和收敛结果。在本节末尾,我们还介绍了一种基于量化和k-最近邻的算法(Qknn),该算法将作为在低维控制问题上测试我们算法的基准。给出了一类用参数函数x表示的控制策略的深层神经网络(DNN)∈ Rd7→ A(x;β)∈ A、 带参数β∈ Rq和一类由参数函数表示的值函数的ofDNN:x∈ Rd7→ Φ(x;θ)∈ R、 带参数θ∈ 卢比。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 06:40:20
回想一下,这些DNN函数A和Φ是线性组合和非线性激活函数的组合,参见【GBC16】。此外,我们将在状态间隔上获得一系列概率度量,我们称之为训练度量,并表示为(un)n-1n=0,应将其视为数据集提供者,以在n=0时学习最佳策略和值函数,N- 备注2.1(训练集设计)训练集的选择对数值效率至关重要。强化学习社区对这个问题进行了大量的研究,尤其是使用多臂bandits算法[ACBF02],最近在数值概率文献中,参见[LM19],但仍然是一个具有挑战性的问题。这里,考虑了两种情况来选择用于生成训练集的训练度量u,在该训练集上将计算时间n的估计值。第一种是基于知识的选择,当控制员以一定程度的信心知道为了优化其成本函数,必须推动流程时,这一选择是相关的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群