全部版块 我的主页
论坛 经济学人 二区 外文文献专区
836 20
2022-05-07
英文标题:
《Risk-Sensitive Mean-Field Type Control under Partial Observation》
---
作者:
Boualem Djehiche and Hamidou Tembine
---
最新提交年份:
2014
---
英文摘要:
  We establish a stochastic maximum principle (SMP) for control problems of partially observed diffusions of mean-field type with risk-sensitive performance functionals.
---
中文摘要:
我们建立了一个随机最大值原理(SMP)来解决具有风险敏感性能泛函的平均场型部分观测扩散的控制问题。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Computer Science        计算机科学
二级分类:Systems and Control        系统与控制
分类描述:cs.SY is an alias for eess.SY. This section includes theoretical and experimental research covering all facets of automatic control systems. The section is focused on methods of control system analysis and design using tools of modeling, simulation and optimization. Specific areas of research include nonlinear, distributed, adaptive, stochastic and robust control in addition to hybrid and discrete event systems. Application areas include automotive and aerospace control systems, network control, biological systems, multiagent and cooperative control, robotics, reinforcement learning, sensor networks, control of cyber-physical and energy-related systems, and control of computing systems.
cs.sy是eess.sy的别名。本部分包括理论和实验研究,涵盖了自动控制系统的各个方面。本节主要介绍利用建模、仿真和优化工具进行控制系统分析和设计的方法。具体研究领域包括非线性、分布式、自适应、随机和鲁棒控制,以及混合和离散事件系统。应用领域包括汽车和航空航天控制系统、网络控制、生物系统、多智能体和协作控制、机器人学、强化学习、传感器网络、信息物理和能源相关系统的控制以及计算系统的控制。
--
一级分类:Mathematics        数学
二级分类:Probability        概率
分类描述:Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用:例如中心极限定理,大偏差,随机微分方程,统计力学模型,排队论
--
一级分类:Quantitative Finance        数量金融学
二级分类:Mathematical Finance        数学金融学
分类描述:Mathematical and analytical methods of finance, including stochastic, probabilistic and functional analysis, algebraic, geometric and other methods
金融的数学和分析方法,包括随机、概率和泛函分析、代数、几何和其他方法
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-7 04:21:00
部分观测下的风险敏感平均场型控制*Hamidou Tembine+2018年7月17日摘要我们建立了一个随机最大值原理(SMP),用于控制具有风险敏感性能函数的部分观测平均场型差异。AMS科目分类。93E20、60H30、60H10、91B28。关键词:时间不一致随机控制、最大值原理、平均场、风险敏感控制、部分观测。1.在平均场类型差异的最优控制问题中,性能函数、漂移和扩散系数不仅取决于状态和控制,还取决于状态控制对的概率分布。在贝尔曼原理不再有效的意义上,平均场耦合使控制问题时间不一致,这促使使用随机最大值(SMP)方法来解决此类最优控制问题,而不是尝试扩展动态规划原理(DPP)。这类控制问题已经被许多作者研究过,包括[1,2,5,7,15,20]。这些文件中考虑的绩效函数属于风险中性类型,即运行成本/利润项是阶段加性支付函数的预期值。然而,并非所有的行为都可以通过风险中性的绩效来捕捉。捕捉风险规避和风险寻求行为的一种方法是在预测之前将性能函数指数化(见[17])。我们了解到的第一篇论文是[28],它涉及平均场环境下的风险敏感最优控制。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 04:21:03
其中,作者利用Ha milton Jacobi Bellman(HJB)方程组和*KTH皇家理工学院,电子邮件:boualem@math.kth.se+纽约大学,电子邮件:tembine@nyu.eduFokker-普朗克方程。这个匹配参数冻结了动力学中的平均场耦合,从而为值函数生成了一个标准的风险敏感HJB方程。然后,通过满足最佳状态边际定律的福克-普朗克方程,检索平均场耦合。在最近的一篇论文[11]中,作者为平均场型控制建立了风险敏感的SMP。风险敏感控制问题首先是根据强化状态过程和终端支付问题重新表述的。然后,通过应用([5]定理2.1.)的SMP,得到了一个中间随机ma-ximump原理对于无运行成本的loss函数,但具有更高维的增广状态和状态的完全观测。然后,使用[12]中导出的对数变换,将中间一阶和二阶伴随过程转换为更简单的形式。许多作者(包括非详尽的参考文献[13,10,19,4,14,3,30,31,21,8,9,27,16])都使用DPP和SMP方法研究了部分观测差异(无平均场耦合)的最优控制。[27]推导了风险中性绩效函数下部分观察到的差异最优控制的最一般模型的SMP。最近,王等人。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 04:21:06
[29]对SMP进行了扩展,以对平均场型风险中性绩效函数的差异进行部分可观察的最佳控制。本文的目的是在部分观测下,建立一类风险敏感的平均场型控制问题的随机极大值原理。根据上述部分观测下最优控制的论文,特别是[27],我们的策略是将部分可观测控制问题转化为完全可观测控制问题,然后应用[11]中建议的方法,推导出风险敏感SMP的合适模型。据我们所知,在不经过DPP的情况下,部分观测下的风险敏感最大原则,尤其是对于平均场类型的控制,尚未在早期工作中建立。论文的结构如下。在第2节中,我们给出了模型,并陈述了构成主要结果的部分可观测风险敏感SMP,其证明在第3节中给出。最后,在第4节中,我们将风险敏感的SMP应用于部分观测下的线性REXP一元二次设置。为了简化演示,我们只考虑一维情况。到目前为止,对多维案例的扩展非常简单。此外,我们还考虑了控制只输入漂移系数的扩散模型,这导致SMP只有一对伴随过程。一般的彭型SMP可以从[27]和[11]中得出。2.问题的陈述:T>0是一个固定的时间范围,并且(Ohm, F、 lF,lP)是一个被定义为两个独立的标准一维布朗运动W={Ws}s的独立的过滤概率空间≥0和Y={Ys}s≥0.让W和Y分别完成lP的自然过滤。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 04:21:10
设置lF:={Fs,0≤ s≤ T},式中,Ft=FWt∨ FYt。我们考虑具有部分观测的平均场型随机控制系统,该系统具有以下特征:(i)容许控制u是一个线性适应过程,其值位于lR和满足E[RT|u(t)| dt]的非空子集(不一定是凸的)u中∞. 我们用U表示所有可容许控制的集合。控制U称为部分可观测。(ii)给定一个控制过程u∈ U、 受控状态过程xu(·)只能通过Y部分观测,我们称之为观测过程,通过动力学(dYt=β(t,xu(t))dt+dfWt,Y=0,(1)on(Ohm, F、 其中β(t,x):[0,t]×lR-→ lR是一个Borel可测函数。函数β的一个更一般的模型是让它依赖于控制u,并且是平均场类型。为了使演示更简单,我们在本文中跳过这些案例。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 04:21:13
但是,主要结果确实扩展到了这种情况。(iii)在概率测度lPu下,状态过程xu(·)满足以下平均场类型的SDEdxu(t)=b(t,xu(t),Eu[xu(t)],u(t))dt+σ(t,xu(t),Eu[xu(t)]dWt+α(t,xu(t),Eu[xu(t)])dfWt,xu(0)=x,(2)其中,W和fw是两个独立的布朗运动,xis假设为实常数,并注意到关于概率测度lPu,b(t,x,m,u)的期望值:[0,t]×lR×lR×u-→ 和α(t,x,m),σ(t,x,m):[0,t]×lR×lR-→ lR。目的是描述可容许控制的特征,以最小化与给定byJθ(u(·))=Eu的(2)相关的风险敏感成本函数经验θZTf(t,xu(t),Eu[xu(t)],u(t))dt+h(xu(t),Eu[xu(t)]), (3) 式中,θ是风险敏感性指数,f(t,x,m,u):[0,t]×lR×lR×u-→ lR,h(x,m):lR×lR-→ lR,t∈ [0,T],x∈ lR,m∈ lR,u∈ U.任何U(·)∈ 满足θ(`U(·))=infu(·)∈UJθ(u(·))(4)称为部分观测下的风险敏感最优控制。设ψT=RTf(T,x(T),Eu[x(T)],u(T))dt+h(x(T),Eu[x(T)],并考虑由ψθ决定的支付函数:=θlog EueθψT。当风险敏感指数θ很小时,损失函数ψθ可展开为Eu[ψT]+θvaru(ψT)+O(θ),其中,varu(ψT)表示ψTw的方差。r、 t.lPu。如果θ<0,作为风险度量的ψT的方差会提高性能ψθ,在这种情况下,优化器被称为RiskSeek。但是,当θ>0时,ψTworsens的方差表示性能ψθ,在这种情况下,优化者被称为风险规避者。风险中性损失函数Eu[ψT]可以被视为风险敏感函数ψθ的极限,当θ→ 0.介绍上定义的密度过程(Ohm, F、 lF,lP)乘以ρu(t):=expZtβ(s,许(s))dYs-Zt |β(s,许(s))|ds, (5) 求解线性SDEdρu(t)=ρu(t)β(t,xu(t))dYt,ρu(0)=1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群