全部版块 我的主页
论坛 经济学人 二区 外文文献专区
743 12
2022-04-19
摘要翻译:
本文给出了一个具有大量跟随者的线性二次Stackelberg对策,并导出了无穷多个跟随者的平均场极限。研究了最优化问题与平均场极限的关系,建立了一致性条件。最后,我们提出了一种基于导出模型的数值方法,并给出了数值结果。
---
英文标题:
《Multiscale Control of Stackelberg Games》
---
作者:
Michael Herty, Sonja Steffensen, Anna Th\\\"unen
---
最新提交年份:
2020
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Economics        经济学
二级分类:Theoretical Economics        理论经济学
分类描述:Includes theoretical contributions to Contract Theory, Decision Theory, Game Theory, General Equilibrium, Growth, Learning and Evolution, Macroeconomics, Market and Mechanism Design, and Social Choice.
包括对契约理论、决策理论、博弈论、一般均衡、增长、学习与进化、宏观经济学、市场与机制设计、社会选择的理论贡献。
--
一级分类:Mathematics        数学
二级分类:Dynamical Systems        动力系统
分类描述:Dynamics of differential equations and flows, mechanics, classical few-body problems, iterations, complex dynamics, delayed differential equations
微分方程和流动的动力学,力学,经典的少体问题,迭代,复杂动力学,延迟微分方程
--

---
英文摘要:
  We present a linear--quadratic Stackelberg game with a large number of followers and we also derive the mean field limit of infinitely many followers. The relation between optimization and mean-field limit is studied and conditions for consistency are established. Finally, we propose a numerical method based on the derived models and present numerical results.
---
PDF下载:
-->
English_Paper.pdf
大小:(382.98 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-19 18:37:20
Stackelberg对策的多尺度控制Michael Herty*,Sonja Ste Ansensen,Anna Thunen,2020年11月9日我们给出了一个具有大量跟随者的线性二次Stackelberg对策,并得到了在许多跟随者中的均值极限。研究了最优化与平均极限之间的关系,建立了一致性条件。关键词:多级博弈、多尺度控制、S tackelberg博弈、Nash均衡、Mean-FieldGameMSC(2020):82B40 91A65 49N80 91A161介绍了多个参与者竞争目标的经典优化理论。早期考虑和经济应用在[33]中得到了证明。纳什通过对均衡概念的形式化,提出了一个理论上的bre akthrough[30]。Stackelberg通过把一个参与者放在一个特殊的位置,称为领导者[34],扩展了模型,从而稳定了Stackelberg对策类。在过去的几十年里,这种多级游戏作为分析多种竞争利益系统的工具。一个突出的应用是使用多领导跟随者博弈分析电力市场[6,18,21]。其他应用程序包括TRA Hillary C和tolling[16,22]以及电信[31,35]。这些应用程序通常涉及对大量追随者进行建模。例如,所有用户对电力的需求都由一个独立的系统运营商(ISO)来表示,这也为目前电力市场的实践提供了一个精确的模型,如[8,9,10]。许多通勤交通收费模型被建模为一个寻求Wardrop平衡的单元,而这些单元之间的相互作用在道路交通中不起作用,例如[16]。类似地,在[35]中,互联网提供商ar e建模为个人领导者,但数据Tra thellc没有进一步讨论。我们对Stackelberg游戏的研究感兴趣,可能有很多追随者。在文献[12,15,32]中已经研究了相互作用的主体或跟随者的模型。特别是,作为社会模式的意见形成和共识在[17,28]中进行了讨论。其他应用包括经济和商业市场模型[29]以及TRA的C模型[19]。分析这些交互agent系统的博弈论基础如[23]。文[1]研究了一个两种群模型的控制问题,其中有主导作用的无种群是通过动力学来建模的。然而,这种领先群体的代理人不是g ame理论意义上的领导者。*德国亚琛大学的Herty@igpm.r w th-Aachen.de,RWTH Aachen University,RWTH Aachen University,RWTH Aachen.de,RWTH Aachen University,RWTH Aachen.thuenen@igpm.rwth-Aachen.de,RWTH Aachen University,RWTH Aachen.de,RWTH Aachen University,RWTH Aachen.de,RWTH Aachen University,RWTH Aachen可能是追随者的数量。这个追随者的人口被建模为一个动态系统。我们对博弈的一个均衡感兴趣,我们用有限阶最优性条件来刻画它。我们提出了以下方法:以领导者的控制为参数优化跟随者水平,然后在规则性假设成立的情况下解决领导者问题,参见例如[11]。在优化的最后几个阶段,可以得到模型的平均描述。本文的主要用途是分析优化的互换性,并推导出平均值,即seeFigure 1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 18:37:27
本文工作的创新之处不仅在于两级问题,而且还在于开环控制方面,与前人研究的feedba ck控制技术相比,C.F.[3,4,2,5]。与[20]相比,我们还得到了一个Stackelberg方程的一致最优性条件。其他相关工作包括[27]中的一个由随机二阶方程所控制的大跟随群体的线性二次Stackelberg对策。在此基础上,将引导者的控制视为一个外生随机过程,解决了跟随者的局部控制问题。这就产生了ε-Nashequilibria,并证明了随着从者数目的增加,ε→0。在[25]中研究了一个相关的模型,其中区分了一个主要的和大量的次要的演奏者。与文献[25,27]的工作相反,我们研究了一个关于球员状态概率密度的偏微分方程(PDE),在此,我们仅限于形式计算。关于测度导数的其它方法、严格的导数和解析结果可以在[13,1,4,23]中找到。本文的结构如下:我们在第2节中首先推导了两个最优控制问题的一致最优性条件。本文研究了一个包含一个s ingle控制的模型和一个eachagent有一个单独控制的seco nd模型。在第3节中,我们将这些结果应用于Sta ckelberg对策。在第4节中,我们导出了一个求解方案3最优性的数值格式。本文通过5.2节单能级问题中的一些数值结果得出结论。本文研究了两个相互作用的ag系统的最优控制问题,这两个问题的本质是控制的应用。第2.1节中的pro ble m由一个控件控制。相反,在第2.2节中讨论的问题为每个主体捕获一个控制,每个最优控制问题的最优性条件可以在导出均值极限之前导出,也可以在导出均值极限之后导出,从而得到两个直接的最优系统。我们比较了这两个系统,并确定了一致性条件,以建立它们之间的联系。引理2.1和引理2.2。注意,上标MO表示mean-offield极限是在o ptimization之前导出的。另见图1.2.1单控制系统我们考虑N个相互作用主体系统的最优控制问题,如下:minutzhj(u,m(~x))+αuidts.t。xi=nnxj=1g(xi,xj,u),xi(0)=xi,0,i=1,。..,N,(1)其中状态xi=xi(t)被认为对于智能体i=1,在RN中。...N和...的初始状态由xi,0给出。所有Agents的级联由~x=(xi)ni=1∈RNN表示。(公共)控制是u=u(t)∈RNU。只要意向性明确,就省略了对时间t的明确依赖。Agents的动力学问题由G:Rn×Rn×Rnu→Rn,在所有的讨论中都可以得到最小值,并选择一个目标泛函在时间范围[0,t]内最小化的共同控制u。函数J:Rnu×Rn→R以控制量u和m为自变量,并假定其为Bedi值。该值m=m(~x)被认为是状态的矩的向量,即m:Rnn→Rn,其中m(~x)=Nnxi=1~m(xi)和~m:Rn→Rn。该目标由标量加权参数α>0的控制u的二次项正则化。假设各智能体同独立且相互作用G对称,我们用re spect计算了mea n-密度hMO=hMO(t,x)的容许va。利用[20,Propo sition 2.1],我们得到了状态变量的平均演化方程和目标泛函形式的最优控制公式:minutzhj(u,mhMO(t))+αuidts.t。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 18:37:33
0=thmo+divx hmozg(x,x,u)hMO(t,x)dx hMO(0,x)=hMO(x),(2)其中mhMO(t)=r~m(x)hmodx。形式上,(1)和(2)的动态和代价被恢复为经验分布:μn(t,x)=nnxi=1δ(x-xi(t)),(3),其中δ表示狄拉克三角洲。同样地,得到了初始l分布hMOis作为以初始数据为中心的经验分布N→∞的极限。引理2.1(单控制系统)。考虑(1)中N个Agent的最优控制问题和(2)中Agent密度HMO:[0,T]×RN→R的最优控制问题。设Hom:[0,T]×rn×rn→Rbe为分布函数,该分布函数满足问题(1)最优性条件的均值极限。在HMO的支持下,(2)的最优性系统的乘数为λ=λ(t,x)。然后,在所有t≥0和所有x的情况下,(1)的最优性条件的平均值解和(2)的最优性条件的平均值解分别由:πxλ(t,x,λ)=-zλhom(t,x,λ)dλ,(4a)正式证明。函数是hOM的边缘:hOM(t,x,λ)=hMO(t,x)hOM(t,x,λ)。(4b)注意,引理2.1中的一致性条件是将(4b)中的概率密度hOM(t,x,λ)分解为概率密度hMO(t,x)和(4a)中的拉格朗日乘子λ和λ(t,x)。引理2.1的证明与下面引理2.2的证明相似,因此省略了引理2.1的证明。2.2个体控制系统我们考虑N个agent的相互作用agent系统,其内容如下:minunnxi=1tzhj(ui,~m(xi))+αuiidts.t。*xi=nnxj=1g(xi,xj,ui),xi(0)=xi,0,i=1,。N(5)与第2.1节相反,每个主体i通过其控制ui=ui(t)∈Rnu来构造模型。形式上,我们得到一个均值最优控制问题:minutzzhj(u,~m(x))+αuifmodx dts.t。0=tfmo+divx fmozg(x,x,u)fMO(t,x)dx fMO(0,x)=fMO(x)(6)与(2)中的问题相比,(6)中的另一个问题是,平均函数u是状态空间的另一个pendenton,即u=u(t,x)。如果选择平均密度fMOis作为经验测度(3),则当u(t)=u(t,xi)时,问题(5)和(6)的动力学和代价是一致的。对于单个控制问题,我们可以导出将引理2.2(个体控制系统)(5)和(6)的最优条件联系起来的一致性条件。考虑(5)中N个Agent的最优控制问题和(6)中Agent密度fmo:[0,T]×rn→R的最优控制问题。设FOM:[0,T]×RN×RN→Rbe为分布函数,它满足了最优性条件TO(5)的均值极限。(6)的最优性系统的乘数为λ=λ(t,x),则(5)的最优性条件的平均数解和(6)的最优性条件的解在FMO的支持下可以形式地表示为:对于所有t≥0和所有x的情况,λ(t,x,λ)=-zλfom(t,x,λ)dλ,(7a)。函数fOMis fOM的边缘:fOM(t,x,λ)=fMO(t,x)fOM(t,x,λ)。(7b)引理2.2的证明在2.3节中进行。特别地,(5)的最优性条件可在(9a-9c)中找到,其均值极限可在(10a-10b)中找到。在(11a-11c)中给出了(6)的最优性条件。推论2.3(参数化d问题)。考虑(5)中的参数化目标J=J(ui,~m(xi);p)的最优控制问题。引理2.2对于参数化的对象也成立。在证明引理2.2之前,我们讨论了与Lcalculus在(6)最优性条件的形式化计算中的使用有关的一个方面。在证明中,计算了Lagrangian的Ga teaux导数,见(1 1)。特别地,计算了fMOis中概率密度的导数,概率密度为非负,其积分为1。关于sucha函数的一致导数也在变分中保守了这些性质,例如在Wasserstein演算中。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 18:37:39
这意味着概率密度fmosatis的可变异性η为:fmo(t,x)+η(x)≥0和zrn fmo(t,x)+η(x)\\dx=1,(8),而lcalculus中不是这样。然而,这种关系由(7)恢复。在下面的段落中假定n=1。问题(6)的拉格朗日包含了Fmo演化方程的乘数λ:Lmo Fmo,u,λ=tzzhj(u,~m(x))+αuifmodx dt+tfmo+divx fmozg(x,x,u)fMO(t,x)d x,λ.如果现在用以下标量积代替标准的标量积:fMO,λ:=zfmo(t,x)xλ(t,x)dx,我们有xλ是紧支撑的fMO(λ)的一致va,因为:zrxλ(t,x)dx=0.因此在(8)中合适的检验函数是η(x)=xλ(t,x).引理2.2的证明我们参考[20]进行详细讨论.带有hat的函数用spac e或hat变量的乘数求值,Pontryagin的最优性条件由状态动力学和拉格朗日乘子(λi)ni=1∈rnn:πxi=nnxj=1g(xi,xj,ui),(9a)πi=-dx~m(xi)\\mj(ui,~m(xi))-nnxj=1hdg(xi,xj,ui)λi+DG(xj,xi,uj)λj=1hdg(xi,xi,uj)λj=1hdg(xi,xi,uj)λj=1hdg(xi,xi,uj),(9b),其中xi(0)=xi,0和λi(t)=0,对于i=1,。..,N并且除此之外,控制由:0=quj(ui,~m(xi))+αui+nnxj=1dug(xi,xj,ui)λi确定。(9C)在这一段中,我们导出了pro-bability密度fOM=fOM(t,x,λ)的演化方程。为了求出平均极限,我们假定存在一个u:[0,T]×rn→rnusch:对于T≥0且所有i=1,u(T,xi(T))=ui(T)。...N.与动力系统(9a-9b)的多粒子极限有关的平均方程为:0=tfom+divx fomzg(x,x,u)fomdxdλ-divλfomzhdg(x,x,u)λ+DG(x,x,u)λifomdxdλ+dx~m(x)=mj(u,~m(x)),(10a),初始条件为fOM(0,x,λ)=fOM(x,λ)。(9C)的平均限值为:0=μj u,mfOM(t)+αU+ZdUG(x,X,u)λfomd x dλ,(10b)其中mfOM(t)=r~m(x)fOMdx dλ。首先平均场极限然后优化(6)的形式阶最优性条件为:0=tfmo+divx fmozg(x,x,u)fmod x,(11a)0=j(u,~m(x))+αu-tλ-z G(x,x,u)^xfmod x,(11b)0=juj(u,~m(x))+αu-zdug(x,x,u)^xfmod x,(11c)初值为fMO(0,x)=fMO(x),终止条件为λ(T,x)=0。我们可以假定存在这样一个分解:fOM(t,x,λ)=fOM(t,x)fOM(t,x,λ),其中对于条件概率密度rhom(t,x,λ)dλ=1成立。当(10b)乘以FOM时,将respec t积分到λ得到:0=reuj u,mfOMfOM(t)zfomdλ+αuzfomdλ+zdug(x,X,u)fom fomd x dλzλfomdλ,(12)因此,IF:FOM(t,x)=fMO(t,x),(13a)zλfomdλ=-∑xλ(t,x)(13b)则方程(12)与(11c)一致。使用(13)中的假设,我们得到方程(10a)关于λ:0=tzfomfomdλ+divxZfOMfOMG(x,X,u)fom fomd x dλdλ,它等价于(11a)。我们继续将(10a)乘以λ并插入(13b),然后通过pa rts积分得到:0=-T fomcuxλ-divx fomcuxλzg(x,x,u)fomd x+fOMZZhDG(x,x,u)λ+DG(x,x,u)λi fom fomfomd xdλdλdλ+fomdx~m(x)=mj(u,~m(x))。当c算出梯度w ith相对于πx:0=-fom t^xλ+^xλzg(x,x,u)fomd x+zdg(x,x,u)^x时,该方程与(11b)等价λfomd x+zdg(x,x,u)^xλfomd x-dx~m(x)^mj(u,~m(x)).这就完成了证明。3Stackelberg对策引入了一个线性二次Stackelberg对策,给出了领导者和N个跟随者的反对。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-19 18:37:46
利用第2节的结果讨论了均值极限和最优化的互换性。讨论的Stackelber g对策b e如下:Minvtz JL(v,m(~ζ))+βv dts.t。Min~w,~ζnnxi=1tzhjf(~m(ζi);v)+γwiidts.t.ζi=nnxj=1p(ζi,ζj)(ζj-ζi)+wi,ζi(0)=ζi,0,i=1,..,N,(14)其中引导者最小化函数JL:rnl×rnf→R,该函数由其控制项v=v(t)∈rnl,且β>0的二次项正则。跟随者控制问题的结构相似:每个跟随者I∈{1,...,N}的目标是通过其二次控制wi=wi(t)∈RNF,以正则化参数γ>0来使JF:RNF×RNL→R正则化d。取m=m(~ζ)为sta tesm:RNNL→RNL的矩向量,从者的结构m是一个势博弈[26],即从者的状态和控制在目标函数中不耦合。与第二节中的最优控制问题不同的是,Stackelberg对策具有多级最优性,因此,最优性条件必须按系统顺序确定。这就产生了图1所示的三种可能性。定理3.1。考虑(14)中单个领导者和N个追随者的Stackelberg对策。用Goom表示:[0,T]×RNF×RNF×R2NF→R两者优化后的跟随者均值极限的概率密度,领导者和追随者。此外,让戈莫:[0,T]×rnf×rnf→R表示先导和GMOO优化后的均值极限的概率密度:[0,T]×Rnf→R是最优前的从动子概率密度。函数θ:[0,T]×Rnf×Rnf→R是Gomo的乘数,函数ζ:[0,T]×RNF→Ris是GMOO的乘数。如果条件:ZψGOMO(T,ζ,(do)dφ=zφgomo(t,ζ,ρ)Dψ,(15)对于t≥0且所有ζ的RnF成立,然后这三个最优系统在均值极限上是等价的,我们有以下关系:Goom(t,ζ,φ,θ)=gOMO(t,ζ,φ)gOOM(t,ζ,φ,θ),(16a)'Aζ,ρθ(t,ζ,φ)=“ρζθ(t,ζ,φ)ρθ(t,ζ,ρ)#=-Zθgoom(t,ζ,φ,θ)Dθ,(16b)对于Gomo(t,ζ,φ)=gMOO(t,∑)gOMO(t,ζ,ψ),(16c)àζ(t),∑)=-z'Agomo(t,ζ,ρ)Dψ,(16d)对于所有t≥0和所有ζ在GMOO的支持下。在3.1节证明这一陈述之前,我们给出了一个附加的内部假设,随机变量X与实现X和概率密度ρs的方差被定义为sVar(X)=e[X],e[X],wher e e[X]表示期望o f X,它被定义为E[X]=rxρ(X)dx。有了这个,条件(15)等价于要求随机变量Y的方差具有概率密度y7→gOMO(t,ζ,y)对所有(t,ζ),即,对于y的实现y,我们有:var(y)=zygomo(t,ζ,y)dy-zygomo(t,ζ,y)dy=0。例如,如果概率密度gOMO(t,ζ,y)与y中的经验测度一致集中在e[y]上,即gOMO(t,ζ,y)=δ(y-y(t,ζ))。在定理3.1的证明中,证明了最优跟随者控制是w(t,ζ)=γζ,这是事实,那么:w(t,ζ)=-γe[y]。3.1定理3.1的证明由SIX步骤组成,其中我们遵循图2的图形。为方便起见,省略了对函数的论证。我们在等式(14)中开始分析游戏的追随者级别。在正则假设下,跟随者优化问题允许使用庞特里亚金极大值原理。这样,跟随者对引导者的最优响应就可以用一个耦合的正微分方程组(ODE)来表征。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群