全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1501 35
2022-06-11
英文标题:
《Deep Learning for Ranking Response Surfaces with Applications to Optimal
  Stopping Problems》
---
作者:
Ruimeng Hu
---
最新提交年份:
2020
---
英文摘要:
  In this paper, we propose deep learning algorithms for ranking response surfaces, with applications to optimal stopping problems in financial mathematics. The problem of ranking response surfaces is motivated by estimating optimal feedback policy maps in stochastic control problems, aiming to efficiently find the index associated to the minimal response across the entire continuous input space $\\mathcal{X} \\subseteq \\mathbb{R}^d$. By considering points in $\\mathcal{X}$ as pixels and indices of the minimal surfaces as labels, we recast the problem as an image segmentation problem, which assigns a label to every pixel in an image such that pixels with the same label share certain characteristics. This provides an alternative method for efficiently solving the problem instead of using sequential design in our previous work [R. Hu and M. Ludkovski, SIAM/ASA Journal on Uncertainty Quantification, 5 (2017), 212--239].   Deep learning algorithms are scalable, parallel and model-free, i.e., no parametric assumptions needed on the response surfaces. Considering ranking response surfaces as image segmentation allows one to use a broad class of deep neural networks, e.g., UNet, SegNet, DeconvNet, which have been widely applied and numerically proved to possess high accuracy in the field. We also systematically study the dependence of deep learning algorithms on the input data generated on uniform grids or by sequential design sampling, and observe that the performance of deep learning is {\\it not} sensitive to the noise and locations (close to/away from boundaries) of training data. We present a few examples including synthetic ones and the Bermudan option pricing problem to show the efficiency and accuracy of this method.
---
中文摘要:
在本文中,我们提出了响应曲面排序的深度学习算法,并将其应用于金融数学中的最优停止问题。响应面排序问题的动机是在随机控制问题中估计最优反馈策略图,目的是在整个连续输入空间$\\数学{X}\\子类Q \\数学{R}^d$中有效地找到与最小响应相关的索引。通过将$\\数学{X}$中的点作为像素,将最小曲面的索引作为标签,我们将该问题重新描述为一个图像分割问题,该问题为图像中的每个像素指定一个标签,使得具有相同标签的像素共享某些特征。这为有效解决问题提供了一种替代方法,而不是在我们之前的工作中使用顺序设计【R.Hu和M.Ludkovski,SIAM/ASA不确定性量化杂志,5(2017),212-239】。深度学习算法具有可扩展性、并行性和无模型性,即响应面无需参数假设。将响应面排序作为图像分割,可以使用一类广泛的深层神经网络,如UNet、SegNet、DECOVNET,这些网络在该领域已得到广泛应用,并经数值证明具有较高的精度。我们还系统地研究了深度学习算法对均匀网格或顺序设计抽样生成的输入数据的依赖性,并观察到深度学习的性能对噪声和训练数据的位置(接近/远离边界)不敏感。我们给出了几个例子,包括合成的例子和百慕大期权定价问题,以证明该方法的有效性和准确性。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-11 09:41:55
响应面排序的深度学习及其在最优停止问题中的应用*2020年3月12日摘要在本文中,我们提出了用于排列响应曲面的深度学习算法,并将其应用于金融数学中的最优停止问题。rankingresponse surfaces问题的动机是估计随机控制问题中的最优反馈策略图,目的是高效地找到与整个连续输入空间X中的最小响应相关的指数 Rd.通过将X中的点视为像素,将最小曲面的索引视为标签,我们将该问题重新描述为图像分割问题,即为图像中的每个像素指定一个标签,使具有相同标签的像素共享某些特征。这为有效解决问题提供了一种替代方法,而不是在我们之前的工作中使用顺序设计【R.Hu和M.Ludkovski,SIAM/ASA Journalon Uncertability Quantification,5(2017),212–239】。深度学习算法具有可扩展性、并行性和无模型性,即响应面无需参数假设。将响应面作为图像分割进行排序,可以使用一类广泛的深层神经网络(NNs),例如前馈NNs、UNet、SegNet、DECOVNET,这些网络在该领域已得到广泛应用,并通过数值证明具有良好的拓扑性能。我们还系统地研究了深度学习算法对均匀网格或顺序设计抽样生成的输入数据的依赖性,并观察到深度学习的性能对噪声和训练数据的位置(靠近/远离边界)不敏感。我们给出了几个例子,包括合成的例子和百慕大期权定价问题,以说明该方法的有效性和准确性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 09:41:58
我们还模拟了一个十维的例子来说明其鲁棒性,而非学习算法通常在如此高的维上有困难。关键词:响应面排序、深度学习、UNet、最优停止、百慕大选择1简介我们首先介绍排序面响应问题的一般设置,然后描述与随机控制问题和相关文献的联系。为了一致性的目的,我们将使用与之前工作中相同的概念,并请感兴趣的读者参考,以了解问题背景的更多细节。表示u`:Rd 十、→ R、 `∈ L≡ {1,2,…,L}作为Rd子集X上的光滑函数。曲面排序问题在于将最小曲面的索引分配给整个(通常是连续的)空间X中的每个输入X,即,在查找分类c(X):=arg min `{u`(X)}∈ Lx个∈ 十、 Rd.(1.1)函数u`是先验未知的,但可以进行噪声采样,即对于任何x∈ X,`∈ 五十、 你可以通过随机取样器Y`(x):Y`(x)=u`(x)+访问u`(x)`(x) ,`∈ 五十、 (1.2)*纽约哥伦比亚大学统计系,邮编:10027-4690,rh2937@columbia.edu.where `’s是均值为零、方差σ`(x)的独立随机变量。换句话说,可以用蒙特卡罗方法对X上的L光滑超曲面进行采样。我们对使用深度学习算法精确估计C(x)感兴趣。假设Cdl(x)是深度学习算法产生的分类器,为了研究不同网络架构和实验设计的性能,我们通过以下损失度量来评估差异:L(C,Cdl)=ZX{C(x)6=Cdl(x)}λ(dx),(1.3)其中λ(dx)∈ P(X)是X上的一个概率度量,指定了不同区域的相对重要性。注意,当λ(dx)=U(X)是统一度量时,L给出了错误标记百分比。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 09:42:01
这本质上是深度学习中的准确度指标,通常是用来判断神经网络模型/架构性能的第一个指标。为了在动态规划的背景下解释(1.2),可以将x视为系统状态,`作为控制器可用的各种动作的指数,u`(·)作为预期成本,以及`(·)由于对基础随机系统和相应成本进行路径评估而产生的模拟噪声。在下文中,我们将澄清这种关系。动机我们考虑以下随机控制问题,并设X(·)≡ Xu(·)是一个受马尔可夫策略控制的离散时间随机状态过程u0:T-1.∈ LT,以下xut+1=F(Xt,ut,εt+1),t∈ {0,1,···,T- 1} ,对于某些贴图F:X×L×R→ X和一些中心独立噪声源εt+1。注意,我们使用一个下标t来表示时间t的过程值,并使用t:t来强调从t到t的整个{Ft}适应过程,Ft=σ(ε,…εt)。一般来说,要最小化的成本的形式为c(0,u0:T)=TXt=0g(T,Xut,ut),(1.4),其中g(T,·,ut)表示使用策略ut的T阶段的运行成本。通过定义valuefunctionV(t,x):=输入:t∈书信电报-t+1Et,x[c(t,ut:t)],其中Et,x[·]=E[·| Xt=x]表示期望给定条件x,最小成本由V(0,x)表示,相应的最优策略由最小u*0:T。使用动态规划(例如[8]),V(T,x)满意度:V(T,x)=infu∈L{g(t,x,u)+Et,x[V(t+1,Xut+1)]}。通过引入术语uu(t,x),在【33】中称为Q值:uu(t,x)=g(t,x,u)+Et,x【V(t+1,Xut+1)】,u∈ 五十、 (1.5)与问题(1.1)–(1.2)的联系现在变得清晰。对于每个u∈ 五十、 Q值uu(t,x)表示对应于动作u的预期成本,是(1.2)中的响应面。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 09:42:05
对于固定t,找到最佳策略图x 7→ u*(t,x)相当于将(1.1)中的分类识别为V(t,x)=infu∈L{uu(t,x)}。然后,这个随机控制问题V(0,x)可以通过向后识别u来解决*(s,·),即通过求解从T阶段到1阶段的形式(1.1)的T排序问题。更准确地说,假设时间t后的策略图,表示为{u(s,·)}Ts=t+1,区域已经生成,那么{u(t,·)是通过在不同的u上排名(1.5)来确定的,其中Et,x[V(t+1,Xut+1)]是通过沿轨迹x(t+1)平均成本(1.4):t遵循策略{u(s,·)}Ts=t+1来估计的。原则上,这种方法适用于任何随机控制问题,包括具有连续策略的连续时间框架,因为时间和策略空间都可以通过离散化来近似。然而,当动作数量有限且很小时,它尤其具有吸引力。例如,在最优停止问题[24]中,动作空间只有两个元素L={stop,continue},并且通常免费获得即时奖励ustop,从而导致仅模拟连续值ucont.(t,x)。这种情况下的一个典型例子是百慕大型期权的定价【43】。需要评估多个表面u`的应用来自定价摇摆期权【47】、能源市场决策【1,38】(即决定是否扩大生产力、开发新能源或什么都不做)、流行病管理【41,44,45,48】,等等。主要方法和贡献。我们的主要贡献是提出了一种通过深度学习算法求解(1.1)的替代策略。其关键思想是建立一个神经网络(NN),让它通过模拟数据学习自己解决感兴趣的问题。这种学习过程称为神经网络的训练,可能很耗时。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-11 09:42:19
然而,一旦准确地完成了这项工作,就可以在计算上有效地解决相同类型的问题。在我们的例子中,这就是说,一旦我们使用某些模拟数据Y`(x)及其标签来训练神经网络并获得所需的精度,新位置x的预测分类器CDLO将是瞬时的,并且主要通过矩阵向量乘法运算来准确。因此,NN是求解(1.1)的理想方法。排序响应曲面的问题相当于将整个输入空间xin划分为通过标签(最小曲面的索引)区分的部分。我们观察到,如果将x视为一个图像,那么标记函数C本质上将图像划分为不相交的部分。这意味着人们可以将这个问题表述为图像分割,深度学习已经取得了成功,并成为现代机器学习社区中一个主要而强大的工具【39,54,52】。同时,通过分析相应的平均场最优控制问题,也发展了关于深度神经网络(NNs)的数学理论,例如,当神经元/层的数量趋于一致时,NN产生的结果是否会收敛到基本真理【17】。与我们之前的工作【33】相比,响应面由高斯过程建模,深度学习算法的优势在于它是无模型的,也就是说,它们使predictedlabels^C不再依赖于u′的特定参数化。此外,通过数值研究,我们发现神经网络算法还具有以下优点:o对采样位置不敏感。当Cdlare在X×L上产生均匀样本与顺序设计样本时,损失L是可比较的。那么,就实现复杂性和并行能力而言,均匀样本更可取它可以自动检测错误的输入。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群