全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1146 19
2022-05-06
英文标题:
《A Stochastic Maximum Principle for Risk-Sensitive Mean-Field Type
  Control》
---
作者:
Boualem Djehiche and Hamidou Tembine and Raul Tempone
---
最新提交年份:
2014
---
英文摘要:
  In this paper we study mean-field type control problems with risk-sensitive performance functionals. We establish a stochastic maximum principle (SMP) for optimal control of stochastic differential equations (SDEs) of mean-field type, in which the drift and the diffusion coefficients as well as the performance functional depend not only on the state and the control but also on the mean of the distribution of the state. Our result extends the risk-sensitive SMP (without mean-field coupling) of Lim and Zhou (2005), derived for feedback (or Markov) type optimal controls, to optimal control problems for non-Markovian dynamics which may be time-inconsistent in the sense that the Bellman optimality principle does not hold. In our approach to the risk-sensitive SMP, the smoothness assumption on the value-function imposed in Lim and Zhou (2005) need not to be satisfied. For a general action space a Peng\'s type SMP is derived, specifying the necessary conditions for optimality. Two examples are carried out to illustrate the proposed risk-sensitive mean-field type SMP under linear stochastic dynamics with exponential quadratic cost function. Explicit solutions are given for both mean-field free and mean-field models.
---
中文摘要:
本文研究了具有风险敏感性能泛函的平均场型控制问题。我们建立了平均场型随机微分方程(SDE)最优控制的随机极大值原理(SMP),其中漂移和扩散系数以及性能泛函不仅取决于状态和控制,而且还取决于状态分布的平均值。我们的结果将Lim和Zhou(2005)针对反馈(或马尔可夫)型最优控制导出的风险敏感SMP(无平均场耦合)推广到非马尔可夫动力学的最优控制问题,在贝尔曼最优性原理不成立的意义上,这些问题可能是时间不一致的。在我们研究风险敏感SMP的方法中,Lim和Zhou(2005)中对值函数的平滑性假设不需要满足。对于一般的作用空间,导出了Peng型SMP,给出了最优性的必要条件。通过两个例子说明了在具有指数二次成本函数的线性随机动力学下提出的风险敏感平均场型SMP。给出了无平均场模型和平均场模型的显式解。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Computer Science        计算机科学
二级分类:Systems and Control        系统与控制
分类描述:cs.SY is an alias for eess.SY. This section includes theoretical and experimental research covering all facets of automatic control systems. The section is focused on methods of control system analysis and design using tools of modeling, simulation and optimization. Specific areas of research include nonlinear, distributed, adaptive, stochastic and robust control in addition to hybrid and discrete event systems. Application areas include automotive and aerospace control systems, network control, biological systems, multiagent and cooperative control, robotics, reinforcement learning, sensor networks, control of cyber-physical and energy-related systems, and control of computing systems.
cs.sy是eess.sy的别名。本部分包括理论和实验研究,涵盖了自动控制系统的各个方面。本节主要介绍利用建模、仿真和优化工具进行控制系统分析和设计的方法。具体研究领域包括非线性、分布式、自适应、随机和鲁棒控制,以及混合和离散事件系统。应用领域包括汽车和航空航天控制系统、网络控制、生物系统、多智能体和协作控制、机器人学、强化学习、传感器网络、信息物理和能源相关系统的控制以及计算系统的控制。
--
一级分类:Mathematics        数学
二级分类:Probability        概率
分类描述:Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用:例如中心极限定理,大偏差,随机微分方程,统计力学模型,排队论
--
一级分类:Quantitative Finance        数量金融学
二级分类:Risk Management        风险管理
分类描述:Measurement and management of financial risks in trading, banking, insurance, corporate and other applications
衡量和管理贸易、银行、保险、企业和其他应用中的金融风险
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-6 02:52:04
风险敏感平均场型控制的随机最大值原理Boualem Djehiche,Hamidou Tembi n eand and Raul Tempone,瑞典斯德哥尔摩皇家理工学院计算科学与工程不确定性量化中心,KSASeptember 8,2018年摘要本文研究了具有风险敏感绩效函数的平均场型控制问题。我们为平均场型随机微分方程(SDE)的最优控制建立了一个随机极大值原理(SMP),其中位移和扩散系数以及性能函数不仅取决于状态和控制,还取决于状态分布的平均值。我们的结果将Limand Zhou(2005)针对反馈(或马尔可夫)型最优控制导出的风险敏感SMP(无平均场耦合)扩展到非马尔可夫动力学的最优控制问题,因为在贝尔曼最优性原则不成立的情况下,非马尔可夫动力学可能存在时间不一致性。在我们对风险敏感SMP的研究中,Limand Zhou(2005)中对值函数的平滑性假设不需要满足。对于一般的动作空间,我们推导了Peng的类型SMP,规定了最优性的必要条件。本文举了两个例子来说明在具有指数四次成本函数的线性随机动力学下提出的风险敏感平均场型SMP。无平均场模型和平均场模型都给出了显式解。索引项。时间不一致随机控制,最大值原理,平均场SDE,风险敏感控制,对数变换。缩写标题。对平均油田类型的SDE进行风险敏感控制AMS科目分类。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 02:52:07
93E20、60H30、60H10、91B2 8.1简介最近,人们对平均场型微分的最优控制问题重新产生了兴趣,其中性能函数、漂移和微分系数不仅取决于状态和控制,还取决于状态控制对的概率分布。[1,2,4,9,11]中的平均场型控制的大多数公式都是风险中性型,其中性能函数是阶段加和函数的预期值。然而,并非所有的行为都可以通过风险中性的平均场类型控制来捕捉。捕捉风险规避和风险寻求行为的一种方法是在预期之前将绩效函数指数化(见[10])。[12]利用SMP和动态规划原理(DPP)之间的关系,优雅地导出了具有指数积分性能泛函的马尔可夫扩散过程的风险敏感的初始控制问题的随机最大原理(SMP),该原理将一阶伴随过程表示为基础控制的值函数的梯度问题只有当t-f函数平滑时,这种关系才成立(见[12]中的假设(B4))。[12]中的方法被广泛使用,并在[14]和[15]中扩展到跳跃过程,但仍在这种光滑性假设下。然而,在许多有趣的情况下,价值函数在最好的情况下只是连续的。此外,SMP和DPP之间的关系不适用于非马尔可夫动力学和贝尔曼最优性原则不适用的平均场型控制问题。这就需要为这些情况找到风险敏感的SMP。我们知道的唯一一篇论文是[16],它涉及平均场环境下的风险敏感最优控制。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 02:52:10
其中,作者利用Hamilton-Jacobi-Bellman(HJB)方程组和Fokkerplan方程组之间的匹配论证,推导出了一个风险敏感的平均场博弈的验证定理,该博弈的基本动力学是马尔可夫扩散。这种匹配参数冻结了动力学中的平均场耦合,从而为值函数生成标准的风险敏感HJB方程。然后,通过满足最优状态边际定律的福克-普朗克方程来检索平均场耦合。我们的贡献可以总结如下。对于一类风险敏感的平均场型控制问题,我们建立了一个随机极大值原理,其中分布函数仅通过状态过程的平均值。这意味着漂移、扩散、运行成本和终端成本函数取决于状态、控制和状态均值。我们的工作将[12]的结果推广到了非马尔可夫和平均场型动力学的风险敏感控制问题。我们对SMP的推导不需要一阶伴随过程和潜在控制问题的值函数之间的任何关系。使用[9]中导出的SMP,我们的方法可以很容易地扩展到平均场耦合是状态和控制过程平均值的情况。据我们所知,平均场类型控制的风险敏感最大原则在早期工作中尚未建立,是全新的,与风险中性平均场情况下的现有结果基本不同[1,2,4,9,11]。这篇论文的组织结构如下。在第二节中,我们给出了模型并陈述了主要结果。在第3.1节中,我们根据Buckdhan等人[4]提出的风险中性SMP,建立了风险敏感SMP。在第3.2节中,我们建立了风险敏感SMP。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 02:52:13
在第4节中,我们将风险敏感SMP应用于线性指数-二次型设置。第五部分对论文进行总结。为了简化演示,我们只考虑一维情况。到目前为止,对多维案例的扩展已经非常明显。2.问题陈述假设T>0为固定时间范围,且(Ohm, F、 lF,lP)是一个给定的过滤概率空间,其中一维标准布朗运动B={Bs}s≥0,过滤lF={Fs,0≤ s≤ T}是由lP增强的B的自然过滤-空启动。我们考虑随机控制系统:dxu(t)=b(t,xu(t),E[xu(t)],u(t))dt+σ(t,xu(t),E[xu(t)],u(t))dBt,xu(0)=x,(1)其中b(t,x,y,u),σ(t,x,y,u):[0,t]×lR×u-→ lR,t∈ [0,T],x∈ lR,y∈ lR,u∈ 容许控制U是一个lF自适应的平方可积过程,其值在lRd的非空子集U中。我们用U表示所有容许控制的集合∈ 方程(1)是具有随机系数的SDE。与(1)相关的风险敏感成本函数由jθ(u(·))=Eeθ[RTf(t,xu(t),E[xu(t)],u(t))dt+h(xu(t),E[xu(t)],(2)给出,其中,θ是风险敏感指数,f(t,x,y,u):[0,t]×lR×lR×u-→ lR,h(x,y):lR×lR-→ lR,t∈ [0,T],x∈ lR,y∈ lR,u∈ U.任何U(·)∈ U满足jθ(\'U(·))=infu(·)∈UJθ(u(·))(3)被称为风险敏感最优控制。相应的状态过程,即(1)的解,由‘x(·):=x‘u(·)表示。我们关心的最优控制问题是描述问题(3)的配对(\'x,\'u)解。设ψT=RTf(T,x(T),E[x(T)],u(T))dt+h(x(T),E[x(T)])。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-6 02:52:17
然后风险敏感损失函数由ψθ:=θlog Eeθ[RTf(t,x(t),E[x(t)],u(t))dt+h(x(t),E[x(t)]]=θlog给出EeθψT.当风险敏感指数θ较小时,损失函数ψθ可以扩展为asE[ψT]+θvar(ψT)+O(θ),其中,var(ψT)表示ψT的方差。如果θ<0,作为风险度量,ψT的方差提高了性能ψθ,在这种情况下,优化器被称为风险寻求者。但是,当θ>0时,ψTworsens的方差表示性能ψθ,在这种情况下,优化器被称为disk averse。当θ→ 0.注意,损失函数ψT中存在期望值E[x(T)]可能会导致时间不一致,在这种情况下,贝尔曼原理不再有效,这促使使用随机最大值(SMP)方法,而不是尝试扩展动态规划原理(DPP)。为了方便起见,我们将在本文中使用以下符号。对于φ∈我们分别定义了{b,σ,f,h}等Δφ(t)=φ(t,\'x(t),E[\'x(t)],u(t))- φ(t,\'x(t),E[\'x(t)],\'u(t));φx(t)=φx(t,\'x(t),E[\'x(t)],\'u(t)),φxx(t)=φx(t,\'x(t),E[\'x(t)],\'u(t));φy(t)=φy(t,\'x(t),E[\'x(t)],\'u(t))。(4) 其中u是u的容许控制。我们定义了与随机变量X相关的风险中性哈密顿量∈ L(Ohm, F、 lP)如下所示。对于(p,q)∈ lR×lRH(t,X,u,p,q):=b(t,X,E[X],u)p+σ(t,X,E[X],u)q- f(t,X,E[X],u),(5)我们还引入了风险敏感哈密顿量:对于θ∈ lR和(p,q,l) ∈ lR×lR×lR,Hθ(t,X,u,p,q,l) := b(t,X,E[X],u)p+σ(t,X,E[X],u)(q+θ)lp)- f(t,X,E[X],u)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群