风险敏感平均场型的随机极大值原理

1146

收藏 2022-05-06

英文标题：
《A Stochastic Maximum Principle for Risk-Sensitive Mean-Field Type
Control》
---
作者：
Boualem Djehiche and Hamidou Tembine and Raul Tempone
---
最新提交年份：
2014
---
英文摘要：
In this paper we study mean-field type control problems with risk-sensitive performance functionals. We establish a stochastic maximum principle (SMP) for optimal control of stochastic differential equations (SDEs) of mean-field type, in which the drift and the diffusion coefficients as well as the performance functional depend not only on the state and the control but also on the mean of the distribution of the state. Our result extends the risk-sensitive SMP (without mean-field coupling) of Lim and Zhou (2005), derived for feedback (or Markov) type optimal controls, to optimal control problems for non-Markovian dynamics which may be time-inconsistent in the sense that the Bellman optimality principle does not hold. In our approach to the risk-sensitive SMP, the smoothness assumption on the value-function imposed in Lim and Zhou (2005) need not to be satisfied. For a general action space a Peng\'s type SMP is derived, specifying the necessary conditions for optimality. Two examples are carried out to illustrate the proposed risk-sensitive mean-field type SMP under linear stochastic dynamics with exponential quadratic cost function. Explicit solutions are given for both mean-field free and mean-field models.
---
中文摘要：
本文研究了具有风险敏感性能泛函的平均场型控制问题。我们建立了平均场型随机微分方程（SDE）最优控制的随机极大值原理（SMP），其中漂移和扩散系数以及性能泛函不仅取决于状态和控制，而且还取决于状态分布的平均值。我们的结果将Lim和Zhou（2005）针对反馈（或马尔可夫）型最优控制导出的风险敏感SMP（无平均场耦合）推广到非马尔可夫动力学的最优控制问题，在贝尔曼最优性原理不成立的意义上，这些问题可能是时间不一致的。在我们研究风险敏感SMP的方法中，Lim和Zhou（2005）中对值函数的平滑性假设不需要满足。对于一般的作用空间，导出了Peng型SMP，给出了最优性的必要条件。通过两个例子说明了在具有指数二次成本函数的线性随机动力学下提出的风险敏感平均场型SMP。给出了无平均场模型和平均场模型的显式解。
---
分类信息：

一级分类：Mathematics 数学
二级分类：Optimization and Control 优化与控制
分类描述：Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学，线性规划，控制论，系统论，最优控制，博弈论
--
一级分类：Computer Science 计算机科学
二级分类：Systems and Control 系统与控制
分类描述：cs.SY is an alias for eess.SY. This section includes theoretical and experimental research covering all facets of automatic control systems. The section is focused on methods of control system analysis and design using tools of modeling, simulation and optimization. Specific areas of research include nonlinear, distributed, adaptive, stochastic and robust control in addition to hybrid and discrete event systems. Application areas include automotive and aerospace control systems, network control, biological systems, multiagent and cooperative control, robotics, reinforcement learning, sensor networks, control of cyber-physical and energy-related systems, and control of computing systems.
cs.sy是eess.sy的别名。本部分包括理论和实验研究，涵盖了自动控制系统的各个方面。本节主要介绍利用建模、仿真和优化工具进行控制系统分析和设计的方法。具体研究领域包括非线性、分布式、自适应、随机和鲁棒控制，以及混合和离散事件系统。应用领域包括汽车和航空航天控制系统、网络控制、生物系统、多智能体和协作控制、机器人学、强化学习、传感器网络、信息物理和能源相关系统的控制以及计算系统的控制。
--
一级分类：Mathematics 数学
二级分类：Probability 概率
分类描述：Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用：例如中心极限定理，大偏差，随机微分方程，统计力学模型，排队论
--
一级分类：Quantitative Finance 数量金融学
二级分类：Risk Management 风险管理
分类描述：Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载：
-->

A_Stochastic_Maximum_Principle_for_Risk-Sensitive_Mean-Field_Type_Control.pdf
大小:(354.67 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

kedemingshi

2022-5-6 02:52:04

风险敏感平均场型控制的随机最大值原理Boualem Djehiche，Hamidou Tembi n eand and Raul Tempone，瑞典斯德哥尔摩皇家理工学院计算科学与工程不确定性量化中心，KSASeptember 8，2018年摘要本文研究了具有风险敏感绩效函数的平均场型控制问题。我们为平均场型随机微分方程（SDE）的最优控制建立了一个随机极大值原理（SMP），其中位移和扩散系数以及性能函数不仅取决于状态和控制，还取决于状态分布的平均值。我们的结果将Limand Zhou（2005）针对反馈（或马尔可夫）型最优控制导出的风险敏感SMP（无平均场耦合）扩展到非马尔可夫动力学的最优控制问题，因为在贝尔曼最优性原则不成立的情况下，非马尔可夫动力学可能存在时间不一致性。在我们对风险敏感SMP的研究中，Limand Zhou（2005）中对值函数的平滑性假设不需要满足。对于一般的动作空间，我们推导了Peng的类型SMP，规定了最优性的必要条件。本文举了两个例子来说明在具有指数四次成本函数的线性随机动力学下提出的风险敏感平均场型SMP。无平均场模型和平均场模型都给出了显式解。索引项。时间不一致随机控制，最大值原理，平均场SDE，风险敏感控制，对数变换。缩写标题。对平均油田类型的SDE进行风险敏感控制AMS科目分类。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-6 02:52:07

93E20、60H30、60H10、91B2 8.1简介最近，人们对平均场型微分的最优控制问题重新产生了兴趣，其中性能函数、漂移和微分系数不仅取决于状态和控制，还取决于状态控制对的概率分布。[1,2,4,9,11]中的平均场型控制的大多数公式都是风险中性型，其中性能函数是阶段加和函数的预期值。然而，并非所有的行为都可以通过风险中性的平均场类型控制来捕捉。捕捉风险规避和风险寻求行为的一种方法是在预期之前将绩效函数指数化（见[10]）。[12]利用SMP和动态规划原理（DPP）之间的关系，优雅地导出了具有指数积分性能泛函的马尔可夫扩散过程的风险敏感的初始控制问题的随机最大原理（SMP），该原理将一阶伴随过程表示为基础控制的值函数的梯度问题只有当t-f函数平滑时，这种关系才成立（见[12]中的假设（B4））。[12]中的方法被广泛使用，并在[14]和[15]中扩展到跳跃过程，但仍在这种光滑性假设下。然而，在许多有趣的情况下，价值函数在最好的情况下只是连续的。此外，SMP和DPP之间的关系不适用于非马尔可夫动力学和贝尔曼最优性原则不适用的平均场型控制问题。这就需要为这些情况找到风险敏感的SMP。我们知道的唯一一篇论文是[16]，它涉及平均场环境下的风险敏感最优控制。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-6 02:52:10

其中，作者利用Hamilton-Jacobi-Bellman（HJB）方程组和Fokkerplan方程组之间的匹配论证，推导出了一个风险敏感的平均场博弈的验证定理，该博弈的基本动力学是马尔可夫扩散。这种匹配参数冻结了动力学中的平均场耦合，从而为值函数生成标准的风险敏感HJB方程。然后，通过满足最优状态边际定律的福克-普朗克方程来检索平均场耦合。我们的贡献可以总结如下。对于一类风险敏感的平均场型控制问题，我们建立了一个随机极大值原理，其中分布函数仅通过状态过程的平均值。这意味着漂移、扩散、运行成本和终端成本函数取决于状态、控制和状态均值。我们的工作将[12]的结果推广到了非马尔可夫和平均场型动力学的风险敏感控制问题。我们对SMP的推导不需要一阶伴随过程和潜在控制问题的值函数之间的任何关系。使用[9]中导出的SMP，我们的方法可以很容易地扩展到平均场耦合是状态和控制过程平均值的情况。据我们所知，平均场类型控制的风险敏感最大原则在早期工作中尚未建立，是全新的，与风险中性平均场情况下的现有结果基本不同[1,2,4,9,11]。这篇论文的组织结构如下。在第二节中，我们给出了模型并陈述了主要结果。在第3.1节中，我们根据Buckdhan等人[4]提出的风险中性SMP，建立了风险敏感SMP。在第3.2节中，我们建立了风险敏感SMP。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-5-6 02:52:13

在第4节中，我们将风险敏感SMP应用于线性指数-二次型设置。第五部分对论文进行总结。为了简化演示，我们只考虑一维情况。到目前为止，对多维案例的扩展已经非常明显。2.问题陈述假设T>0为固定时间范围，且(Ohm, F、 lF，lP）是一个给定的过滤概率空间，其中一维标准布朗运动B={Bs}s≥0，过滤lF={Fs，0≤ s≤ T}是由lP增强的B的自然过滤-空启动。我们考虑随机控制系统：dxu（t）=b（t，xu（t），E[xu（t）]，u（t））dt+σ（t，xu（t），E[xu（t）]，u（t））dBt，xu（0）=x，（1）其中b（t，x，y，u），σ（t，x，y，u）：[0，t]×lR×u-→ lR，t∈ [0，T]，x∈ lR，y∈ lR，u∈ 容许控制U是一个lF自适应的平方可积过程，其值在lRd的非空子集U中。我们用U表示所有容许控制的集合∈ 方程（1）是具有随机系数的SDE。与（1）相关的风险敏感成本函数由jθ（u（·））=Eeθ[RTf（t，xu（t），E[xu（t）]，u（t））dt+h（xu（t），E[xu（t）]，（2）给出，其中，θ是风险敏感指数，f（t，x，y，u）：[0，t]×lR×lR×u-→ lR，h（x，y）：lR×lR-→ lR，t∈ [0，T]，x∈ lR，y∈ lR，u∈ U.任何U（·）∈ U满足jθ（\'U（·））=infu（·）∈UJθ（u（·））（3）被称为风险敏感最优控制。相应的状态过程，即（1）的解，由‘x（·）：=x‘u（·）表示。我们关心的最优控制问题是描述问题（3）的配对（\'x，\'u）解。设ψT=RTf（T，x（T），E[x（T）]，u（T））dt+h（x（T），E[x（T）]）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-5-6 02:52:17

然后风险敏感损失函数由ψθ：=θlog Eeθ[RTf（t，x（t），E[x（t）]，u（t））dt+h（x（t），E[x（t）]]=θlog给出EeθψT.当风险敏感指数θ较小时，损失函数ψθ可以扩展为asE[ψT]+θvar（ψT）+O（θ），其中，var（ψT）表示ψT的方差。如果θ<0，作为风险度量，ψT的方差提高了性能ψθ，在这种情况下，优化器被称为风险寻求者。但是，当θ>0时，ψTworsens的方差表示性能ψθ，在这种情况下，优化器被称为disk averse。当θ→ 0.注意，损失函数ψT中存在期望值E[x（T）]可能会导致时间不一致，在这种情况下，贝尔曼原理不再有效，这促使使用随机最大值（SMP）方法，而不是尝试扩展动态规划原理（DPP）。为了方便起见，我们将在本文中使用以下符号。对于φ∈我们分别定义了{b，σ，f，h}等Δφ（t）=φ（t，\'x（t），E[\'x（t）]，u（t））- φ（t，\'x（t），E[\'x（t）]，\'u（t））；φx（t）=φx（t，\'x（t），E[\'x（t）]，\'u（t）），φxx（t）=φx（t，\'x（t），E[\'x（t）]，\'u（t））；φy（t）=φy（t，\'x（t），E[\'x（t）]，\'u（t））。（4）其中u是u的容许控制。我们定义了与随机变量X相关的风险中性哈密顿量∈ L(Ohm, F、 lP）如下所示。对于（p，q）∈ lR×lRH（t，X，u，p，q）：=b（t，X，E[X]，u）p+σ（t，X，E[X]，u）q- f（t，X，E[X]，u），（5）我们还引入了风险敏感哈密顿量：对于θ∈ lR和（p，q，l) ∈ lR×lR×lR，Hθ（t，X，u，p，q，l) := b（t，X，E[X]，u）p+σ（t，X，E[X]，u）（q+θ）lp）- f（t，X，E[X]，u）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

大多数88

2022-5-6 02:52:21

（6）我们有H=H。此外，我们表示δH（t）：=p（t）δb（t）+q（t）Δσ（t）- δf（t），δHθ（t）：=p（t）δb（t）+（q+θlp） Δσ（t）- δf（t），Hk（t）：=bk（t）p+σk（t）q- fk（t），Hθk（t）：=p（t）bk（t）+（q+θlp） σk（t）- fk（t），（7）表示k=x，y，xx。在本文中，我们将做出以下假设。假设1。函数b，σ，f，h对于（x，y）是两次连续可微的。此外，b，σ，f，h及其关于（x，y）的二阶导数在（x，y，u）中连续且有界。在这些假设下∈ U、 SD E（1）承认了一个独特的强解xu（见例[4,5]）。我们引入风险敏感SMP中涉及的伴随方程来解决我们的控制问题。一阶伴随方程为以下平均场型反向SDE：dp（t）=-nHθx（t）+vθ（t）E[vθ（t）Hθy（t）]odt+-q（t）(-θl（t） dt+dBt），dvθ（t）=θl（t） vθ（t）dBt，vθ（t）=φθ（t），\'p（t）=-hx（T）-φθ（T）E[φθ（T）hy（T）]。（8）式中，φθT:=eθ[h（\'x（T），e[\'x（T）]）+RTf（T，\'x（T），e[\'x（T）]，\'u（T））dt]。（9）根据（[5]定理3.1.），在假设1下，（8）允许一个唯一的lF适应解（\'p，\'q，vθ，l) 好吧∈[0，T]| p（T）|+支持∈[0，T]| vθ（T）|+ZT|\'q（t）|+|l（t）|dt#<∞ . （10）二阶伴随方程为以下向后SDE：dp（t）=-（2bx（t）+σx（t）+2θl（t） σx（t）`P（t）+2σx（t）`Q（t）-θ（\'q（t）+σx（t）\'p（t））+Hθxx（t）dt+-Q（t）(-θl（t） dt+dBt），\'P（t）=-hxx（T）。（11）这是一个标准的线性后向SD E，其独特的lF自适应解决方案（\'P，\'Q）满足“supt”∈[0，T]| P（T）|+ZT | Q（T）| dt#∞. （12）以下定理是本文的主要结果。定理1。（风险敏感最大原则）假设1成立。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-6 02:52:25

如果（\'x（·），\'u（·））是风险敏感控制问题（1）-（2）的最优解，那么有三对自适应过程（vθ，l), （\'p，\'q）和（\'p，\'q），分别满足（8）-（10）和（11）-（12），使得δHθ（t）+\'P（t）- θp（t）（Δσ（t））≤ 0，（13）代表所有美国∈ U、几乎每一天∈ [0，T]和P-几乎可以肯定。特别地，如果σ（t，x，u）：=σ（t，x）独立于u，那么hθ（t，\'x（t），\'u（t），\'p（t），\'q（t），l（t））=maxuHθ（t，\'x（t），u，\'p（t），\'q（t），l（t））。备注1。定理1简化为定理3。Lim和Zhou[12]中的1，如果模型是无平均场的，即σy=hy=by=fy=0，以及l（t）：=-p（t）σ（t，\'x（t），\'u（t）），在这种情况下，一般鞅vθ成为马尔可夫或反馈控制动力学的光滑值函数，其梯度是伴随过程。备注2。本文的主要结果建立在[4]中导出的风险中性案例的SMP基础上，其中涉及系数的强条件1适用于g等人的技术证明。这些条件可以通过使用最优控制文献（见[3,12]）中的技术大大削弱。3风险敏感随机极大值原理的证明定理1的证明将在下一小节中展示。3.1平均场型控制的中间SMP在本小节中，我们首先从增强状态过程和终端支付问题的角度重新描述了风险敏感控制问题（1）-（3）。然后，通过应用（[4]定理2.1）的SMP，得到一个中间随机最大值原理无运行成本的损失功能。然后，我们将中间一阶和二阶伴随过程转化为更简单的形式。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-5-6 02:52:28

动力学（1）下的平均场型控制问题（3）相当于infu（·）∈UEeθ[h（x（T），E[x（T）]+ξ（T）]，受试者T=b（T，x（T），E[x（T）]，u（T））dt+σ（T，x（T），E[x（T）]，u（T））dBt，dξ（T）=f（T，x（T），E[x（T）]，u（T））dt，x（0）=x，ξ0=0。（14）回想一下φθT:=eθ[h（\'x（T），e[\'x（T）]）+RTf（T，\'x（T），e[\'x（T）]，\'u（T））dt]。在假设1下，我们可以将（[4]，定理2.1）中风险中性平均场型控制的SMP应用于增广状态动力学（x，ξ），以推导一阶伴随方程d~p（t）=-(bx（t）0fx（t）0′~p（t）+σx（t）00 0′~q+E“到（t）0fy（t）0′~p+σy（t）00 0′~q（t）#dt+~q（t）dBt，~p（t）=-θφθThx（T）- θEφθThy（T）,（15）维特sup0≤T≤T |~p（T））|+ZT | ~q（T）| dt< ∞ . （16）设Hθ为伴随过程（~p（t），~q（t））：Hθ（t，’x（t），u，~p（t），~q（t）），与最优状态动力学有关的哈密顿量：=b（t，\'x（t），E[\'x（t）]，u）f（t，\'x（t），E[\'x（t）]，u）· ~p（t）+σ（t，\'x（t），E[\'x（t）]，u）· ~q（t），（17），其中，（·）表示lR中常用的标量积。哈密顿量对θ的依赖源于θ的伴随过程（~p，~q）对端点条件in（15）的依赖。二阶伴随方程是dP（t）=-(bx（t）0fx（t）0P（t）+P（t）bx（t）0fx（t）0′+σx（t）00 0P（t）σx（t）00 0′+σx（t）00 0Q（t）+Q（t）σx（t）00 0′+~Hθxx（t）00 0)dt+Q（t）dBt，P（t）=-θφTθhx（T）+hxx（T）θhx（T）θhx（T）θ.（18） Esup0≤T≤T | | P（T））| |+ZT | | Q（T）| dt< ∞ , （19）其中，| |·| |表示相关矩阵的范数。我们有以下建议1。让假设1保持不变。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-6 02:52:32

如果（\'x，\'ξ，\'u）是风险中性控制问题m（14）的最优解，则存在两对分别满足（15）-（16）和（18）-（19）的lF自适应过程（~p，~q）和（p，q），使得δHθ（t）+Δσ（t）′P（t）Δσ（t）≤ 0，（20）代表所有美国∈ U、几乎每个t和P-几乎可以肯定的是，式中δ~Hθ（t）：=~Hθ（t，\'x（t），u，~p（t），~q（t））-~Hθ（t，\'x（t），\'u（t），~p（t），~q（t））。3.2一阶伴随过程的变换尽管命题1的结果对于风险敏感的平均场类型控制来说是一个很好的SMP，但事实上，用第二个分量ξ增加状态过程会产生两个伴随方程的系统，这两个方程在具体情况下似乎很难求解。在无平均场的情况下，Lim和Zhou（[12]）巧妙地解决了这个问题，他们建议转换伴随过程（~p，~q），这样就可以去掉（15）中的第二个分量（p，q），并且只用一个伴随过程来表示SMP，我们将其表示为（~p，~q），它解决了一个反向SDE，其驱动程序在~p中是二次的，这是风险敏感的汉密尔顿-雅可比-贝尔曼方程（见[16]和其中的参考文献）的结果。建议的转换使用SMP和DPP之间的关系（仅适用于马尔可夫或反馈控制，且在贝尔曼原理有效的情况下有效），该关系将伴随过程p表示为与控制问题（14）相关的值函数的梯度，前提是值函数为smoot h（见[12]中的假设（B4）），在具体情况下通常很难证实的情况。总的来说，价值函数并不平滑。

扫码加我拉你入群

请注明：姓名-公司-职位

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群