平均场比赛 - 外文文献专区

980

收藏 2022-06-01

英文标题：
《A Mean Field Competition》
---
作者：
Marcel Nutz, Yuchong Zhang
---
最新提交年份：
2017
---
英文摘要：
We introduce a mean field game with rank-based reward: competing agents optimize their effort to achieve a goal, are ranked according to their completion time, and paid a reward based on their relative rank. First, we propose a tractable Poissonian model in which we can describe the optimal effort for a given reward scheme. Second, we study the principal--agent problem of designing an optimal reward scheme. A surprising, explicit design is found to minimize the time until a given fraction of the population has reached the goal.
---
中文摘要：
我们引入了一个基于等级奖励的平均场游戏：竞争代理优化其努力以实现目标，根据完成时间进行排名，并根据其相对等级支付奖励。首先，我们提出了一个易于处理的泊松模型，在该模型中我们可以描述给定奖励方案的最优努力。其次，我们研究了设计最优报酬方案的委托代理问题。研究发现，一种令人惊讶的显式设计可以最大限度地缩短人口达到目标所需的时间。
---
分类信息：

一级分类：Mathematics 数学
二级分类：Optimization and Control 优化与控制
分类描述：Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学，线性规划，控制论，系统论，最优控制，博弈论
--
一级分类：Mathematics 数学
二级分类：Probability 概率
分类描述：Theory and applications of probability and stochastic processes: e.g. central limit theorems, large deviations, stochastic differential equations, models from statistical mechanics, queuing theory
概率论与随机过程的理论与应用：例如中心极限定理，大偏差，随机微分方程，统计力学模型，排队论
--
一级分类：Quantitative Finance 数量金融学
二级分类：Economics 经济学
分类描述：q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学，包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载：
-->

A_Mean_Field_Competition.pdf
大小:(444.67 KB)

马上下载

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

nandehutu2022

2022-6-1 05:07:02

平均场比赛Marcel Nutz*张宇冲+2017年8月7日摘要我们介绍了一种基于等级奖励的平均场游戏：竞争代理优化其工作以实现目标，根据完成时间进行排名，并根据相对人的能力支付奖励。首先，我们提出了一个易于处理的泊松模型，在该模型中，我们可以描述给定奖励方案的最佳效果。其次，我们研究了设计最优报酬方案的委托代理问题。令人惊讶的是，显式设计被发现可以最大限度地缩短达到目标所需的时间。平均场博弈；基于等级的奖励；最优合同；研发竞赛MS 2010主题分类91A13；91B40；本文介绍了两个博弈论问题。第一种是一种平均场游戏，有很多玩家竞争获得阿雷沃德。第二个问题是委托代理问题，其中委托人与这些代理人相互作用；也就是说，负责人的目标是向不同的级别分配一个给定的预算，以便尽可能缩短代理完成任务的时间。让我们把代理商想象成独立的研究团队，试图在同一领域开发成果或产品。根据下文详述的有关动态研究与开发（dynamicresearch and development，R&D）的文献，获得的结果将被建模为一个二进制事件。在任何时间t，每个代理选择一个研究函数λ，为其支付二次瞬时成本cλ，其中c>0被假定为常数，以便进行介绍。在泊松分布中*哥伦比亚大学统计与数学系，mnutz@columbia.edu.阿尔弗雷德·P·斯隆奖学金和NSF拨款DMS-1512900支持的研究+哥伦比亚大学统计系，yz2915@columbia.edu.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-1 05:07:05

NSF资助的研究DMS-1714607。时尚，代理人在小时间间隔内达到目标的概率t由λ给出t+o(t）；在研发文献中，λ有时被解释为私人知识的积累，其目标是实现冷漠。根据代理的完成时间和paida奖励R（R）对等级R进行排序，其中奖励方案R是给定的递减函数。在任何时候，代理都会观察已经完成任务的玩家的分数ρ（t），因此R的哪一部分仍然可用；更准确地说，代理使用反馈控制λ（ρ（t））。这种基于等级的代理优化问题耦合是平均场交互的非标准示例。我们将证明，在给定R的情况下，当代理优化报酬负成本的期望时，该博弈具有纳什均衡。事实上，这种设置非常容易处理：定理2.2提供了平衡最优控制λ的显式公式*和代理的价值函数。这些数量与成本c无关，在本文正文中，成本c也允许取决于状态ρ（t），以建模成本可能随着更多结果的可用而减少。第二个问题建立在第一个问题之上：正如我们所看到的，任何奖励方案R都会导致代理人之间的独特平衡，我们可以研究希望推进研究的管理者或决策者的问题。更准确地说，我们的目标是将时间T最小化*直到阿吉文一部分人完成任务。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-1 05:07:09

原则上有固定的奖励预算B=RR（r）dr，但可以选择递减函数r的形状；也就是说，给每个等级分配多少奖励。令人惊讶的是，委托人的优化问题有一个明确但非平凡的解（定理3.1）：R*（r） =BC′√2.- r+对数（1+√2.- α)(1 -√2.- r）（1）-√2.- α)(1 +√2.- r）[0，α]（r），其中C′是一个常数，使得预算约束饱和。如图1所示，此函数有两个主要特性。第一个是r=α时的不连续性：相当一部分奖励给了las t少数相关代理，但最好是对α之后的级别支付零奖励。尽管激励最后一批完成α分数的代理人显然很重要，但这些代理人并没有因为他们可能错过了奖励级别而感到气馁。第二个特征是R的形状*在[0，α]上。先验地讲，与向第一个α级支付相同金额的报酬相比，提供严格递减的报酬是否更好，甚至可能并不明显。结果是R*正在减少，即使不是很多，而更多的过度减少和增加在整个论文中都是从非严格意义上理解的。0 0.2 0.4 0.6 0.8 1r0.51.52.53.54.5R*（r）最优报酬=0.25=0.5=0.750 0.2 0.4 0.6 0.8 1r0.51.5*（r）平衡努力=0.25=0.5=0.750 0.5 1 1.5 2.5 3 3.5t0.10.20.30.40.50.60.70.8（t）平衡状态=0.25=0.5=0.75图1：最优报酬方案r*以及相应的平衡流λ*以及三个不同切割值α的状态过程ρ，其中B=1和c≡ 1.为凹面。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-6-1 05:07:11

因此，在游戏后期，两个等距等级之间的报酬差异会增加，这显然是为了激励剩下的代理选择更高的报酬，如图1的第二个面板所示。虽然用连续的代理制定游戏很容易直接得到我们的主要结果，但平均场游戏的一个更基本的公正性是研究一个N人的游戏→ ∞. 事实上，weestablish证明，我们这两个问题的N-player版本有着独特的解决方案，尽管比平均场的情况要不那么明确。我们证明了N人均衡收敛于平均场极限；也就是说，如果给定的奖励方案收敛，则值函数和最优反馈控制收敛（定理5.1）。此外，委托人的最优奖励方案和相应的预期完成时间收敛（定理5.3）。有限元分析还允许我们研究在平均场极限下无法观察到的规模效应，因此在大型人口游戏中很少解决。特别是，我们将在第4.3节中观察到，人口规模的增加会对主要因素产生不利影响：最小预期完成时间f或固定目标比例α以N为单位增加。我们的许多结果关键性地使用了我们模型中可以获得的显式或半显式公式；事实上，我们的大部分工作都是为了找到一个易于处理的环境。另一方面，人们可能会怀疑结果的定性特征，特别是最优奖励方案的形状R*, 即使竞争的精确机制不同，也会是类似的。目前，我们似乎没有解决这个问题的工具，因此这仍然是未来研究的一个有趣方向。1.1文学动态竞争（也称种族）是经济学文献中的经典。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 05:07:15

与我们的论文相关的早期参考文献是Reinganum[30]，它讨论了研发和专利保护的N人动态博弈。奖励是在固定的时间范围内支付的，并研究了两个案例：要么只有排名第一的玩家获得奖励（完美的专利保护），要么随后的排名获得正的、较小的奖励；然而，仅考虑对所有“模仿者”进行身份奖励的情况。Malueg和Tsutsui【26】以代表研究项目难度变化的危险率来扩展Reinganum的设置，我们通过使用依赖于国家的成本来模拟公众知识的增加如何影响项目，将这一方面不同地纳入其中。Harris和Vickers【17】以及Grossmanand Shapiro【15】专注于多阶段2人游戏中代理人之间的战略互动。这一领域最近的一项工作是Cao【6】，它研究了【17】中模型的连续时间、连续状态版本。本文献中的更多参考文献，请参考[6，26]。Lasry和Lions【22、23、24】以及Huang、Malhamé和Caines【19、20】引入了平均场博弈，以研究限制制度下的纳什均衡，其中参与者的数量趋于一致，并通过私人国家的经验分布进行互动；我们参考了盖恩特、莱斯利和狮子队【16】、本苏桑、弗雷西和亚姆【4】以及卡莫纳和德拉鲁【8、9】了解平均场比赛的背景。由于单个参与者对总分布的影响可以忽略不计，因此，找到纳什均衡将简化为解决代表性参与者在固定环境下的随机优化问题，以及一致性条件。这可以通过制定一个具有连续玩家的游戏，并证明它是N人游戏的极限来严格证明。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

大多数88

2022-6-1 05:07:18

趋同往往表现为倒退；i、例如，平均场均衡为N-playergame提供了ε-纳什均衡。N-player均衡到平均场均衡的前向收敛性通常更难证明。对于s标准，DiffusionDriven平均场比赛，最近在Cardaliaguet、Delarue、Lasry和Lions的开创性工作中实现了这一点[7]。虽然我们的游戏有不同的形式，但它的易处理性允许我们提供基本但不平凡的前向收敛性；[7]的一个共同特点是我们使用反馈控制。在有限状态下，G omes、Mohr和Souza【14】表示了小时间范围内的前向收敛，最近Bayraktar和Cohen【1】表示了任意时间范围内的前向收敛。竞争，即基于等级的奖励，是合同理论中pic的经典，可以追溯到Lazear和Rosen的工作【25】。随着从学校年级到体育和商业比赛的应用，排名优先级是使用最广泛的相对绩效评估标准之一；我们参考Vojnovi'c[34]了解详细介绍和参考文献的扩展列表。据我们所知，只有Bayraktar和Zhang（2）才是现有的基于等级奖励的平均场游戏，玩家根据其终端位置进行排名。这项工作的主要目的是获得具有常见noisevia平移不变性的博弈的抽象存在性结果，而在目前的工作中，参与者是根据退出时间进行排序的，重点是解决方案的特殊性质（当然还有委托人的问题）。在玩具示例“会议什么时候开始？”中，以不同的方式使用了退出时间共【16】页。（非受控）粒子系统的文献中也研究了基于秩的特征；Shkolnikov就是一个例子【31】。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

可人4

2022-6-1 05:07:21

Nadtochiy和Shkolnikov【27】考虑了粒子通过撞击时间相互作用。不同但相关的最新文献研究是指玩家直接选择最佳时机的现场比赛；参见Carmona和Lacker【10】、Bertucci【5】和Nutz【28】。Koo、Shim和Sung【21】以及Elie和Possama"i【13】研究了多个代理人的连续时间委托代理问题，Elie、Mastrolia和Possama"i【12】以及Bensoussan、Chau和Yam【3】将其扩展到平均场设置。虽然这些工作没有考虑基于饮酒的奖励，但一个常见的特征是斯塔克伯格均衡：校长设计了一个奖励方案，让代理人作为外部输入，在他们之间形成纳什均衡。相比之下，在黄（18）或卡莫纳（Carmona）和王（11）等主要玩家的平均场游戏中，阿纳什均衡是由主要玩家和次要玩家共同形成的。据我们所知，只有在一个简单的例子中，均衡控制独立于N；见【12】。本文的其余部分结构如下。在第2节中，我们确定了具有给定奖励方案的连续玩家的平均场竞争的唯一纳什均衡。基于这一结果，第3节解决了委托人设计奖励方案的相关委托代理问题。在第4节中，我们研究了相应的N-player问题，第5节建立了它们的收敛性asN→ ∞. 证据收集在附录A中，而附录B提供了第2.2节中使用的大数定律的背景——平均场配子（I，I，u）是无原子概率空间；每个i∈ 我被认为是一名特工。此外，让(Ohm, F、 P）是另一个概率空间，用作样本速度。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nandehutu2022

2022-6-1 05:07:24

Let（Zi）i∈Ibe上的指数（1）-分布随机变量族Ohm 基本上是成对独立的；也就是说，对于u-几乎所有我∈ 一、 Zi与Zjforu无关-几乎所有j∈ 一、我们假设该系列是在产品的扩展上定义的（I×）Ohm, 我F、 uP）其精确的大数定律成立，详见附录B。给定一个局部Lebesgue可积函数θ：R→ [0, ∞), 我们定义τiθ=inft:Ztθ（s）ds=Zi; （2.1）然后（τiθ）i∈I本质上是成对独立的，其分布对应于强度为θ的非均匀泊松过程的第一个跳跃时间。下面，函数θ的形式为θ=λo ρ，其中λ是代理选择的函数，ρ是给定函数，我们将发现，尽管存在滥用符号的情况，但为τiθ写τiλ是很方便的。如果τiλ≤ t、 weshall s say，agent i在t时“到达”。我们将容许（反馈）控制定义为分段Lipschitz连续函数λ：[0，1）→ R+。下一个引理介绍了当所有代理都使用控制λ时出现的状态过程。引理2.1。Letλ∈ ∧为容许反馈控制。存在唯一连续函数ρ：R+→ [0，1）满足ρ（t）=Ztλ（ρ（s））（1- ρ（s））ds，t≥ 0。（2.2）如果所有代理都使用反馈控制λ，则ρ（t）=u{i：τiλ（ω）∈ [0，t]}P-a.s.以及ρ（t）=P{τiλ∈ [0，t]}u-a.s。；也就是说，ρ（t）既是时间t之前到达的药剂比例，也是任何给定药剂在时间t之前到达的概率。接下来，我们确定成本系数c：[0，1]→ (0, ∞) 假设是Lipschitz连续的（因此，c和1/c是有界的）。此外，我们确定了areward方案R:[0，1]→ R+假设为递减，分段Lipschitz连续，且在R=1时为左连续。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 05:07:27

我们将R（R）解释为向到达R级的代理人支付相应费用。也就是说，[0，1）是λ为Lipschitz的有限多个区间的并集。现在让我们考虑给定代理i到达之前的控制问题，假设人口的比例r已经到达，并且所有其他代理根据确定性函数ρ转移。然后，我们代理的值函数为v（r）=su pλ∈∧ER（ρ（τλ））-Zτλc（ρ（t））λ（ρ（t））dtρ（0）=r, （2.3）式中，τλ=τiλ是给定试剂到达控制λ的时间。这里，我们使用ρ(∞) := 1，表示从未到达的代理将获得报酬R（1）。如果λ∈ ∧达到（2.3）中的上确界，我们认为λ是给定ρ的最优控制。如果λ是一个最优控制，给定（2.2）定义的诱导函数ρ，我们说λ是一个平衡最优控制，ρ是相应的平衡状态过程。这是一个纳什均衡：如果所有其他参与者都使用反馈控制λ，则状态根据引理2.1中的ρ演化（即u是无原子的），然后λ是我们固定参与者的最优控制。定理2.2。设R为奖励方案。然后存在唯一的（a.e.）平衡最优控制λ*∈ ∧，由λ给出*（r） =r（r）-√1.-rRrR（y）√1.-ydy2c（右），右∈ [0，1）（2.4），相应的平衡态过程ρ由（2.2）确定，λ=λ*. 在平衡状态下，到达isv（r）之前任何代理的值函数=√1.- rZrR（y）√1.- ydy，右∈ [0，1）。（2.5）让我们注意到，虽然分段Lipschitz要求主要是为了方便起见，但R=1时的连续性在提供存在性方面更为重要。下面的示例展示了有限区间最优停止问题中常见的现象。示例2。3。假设c≡ 1和R=1[0,1）；也就是说，对于在特定时间到达的代理，奖励为1；对于从未到达的代理，奖励为0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 05:07:30

然后，使用常数控制λ≡ ε>0会产生一个e[τ]=1/ε的预期到达时间，因此预期回报isER（ρ（τ））-Zτεdt= 1.- ε.因此，对于所有r<1的情况，值函数满足v（r）=1=r（r）。但由于λ≡ 0产生零回报，而任何其他控制都有正成本，这个值无法实现：没有最优控制，因此没有上述意义上的均衡。备注2.4。我们从（2.5）中看到，平衡值函数独立于成本系数c。这也可以通过使用Kolmogorov方程（2.2）和变量变化公式v（r）=supλ将（2.3）表示为秩上的积分来直接理解od∈∧E“R（ρ（τλ））-Zρ（τλ）ρ（0）c（r）λ（r）dr1- rρ（0）=r#。实际上，ρ（τλ）与λ无关-当所有代理使用相同的控制时，它们的排名由Zi的排名给出。另一方面，cλ∈ ∧i仅当λ∈ ∧，因此v在平衡时与c无关。直觉上，较高的成本会导致较小的最优效益，但由于这对allagents是成立的，平衡状态ρ会减慢，以使降低的效益产生相同的回报。任何代理人的均衡价值函数都有一个令人惊讶的解释：可以将其比作一笔交易，即代理人不为其（持续的）工作支付任何费用，但却被赋予了以竞争对手一半的强度运行的障碍。提案2.5。（2.5）的平衡值函数v与作用力固定在λ的试剂的值函数一致≡ λ∈ (0, ∞) andis收取零成本，而所有其他代理使用λ≡ 2λ：v（r）=E[r（ρ（τ））|ρ（0）=r]，其中τ~ Exp（λ）和ρ′（t）=2λ（1- ρ（t））。特别地，v（0）=E[R（1- e-2τ）]，用于τ~ 实验（1）。下面的结果表明，定理2.2的唯一均衡相对于奖励方案是稳定的。提案2.6。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 05:07:33

设Rn，R为奖励方案，使得Rn→ R点方向。然后，相应的平衡最优控制也收敛于e点，而平衡值函数和状态过程一致收敛。2.1闭式解的例子在本节中，我们给出了一系列显式可解的例子。给定总奖励预算B=RR（r）dr≥ 0，该族有一个cut-o off参数α∈ （0，1）表示不会向排名低于α的代理支付奖励，以及形状参数q≥ 然后给出一般形式nbyr（r）=κ（1- r） q[0，α]（r），κ=B（1+q）1- (1 - α） 1+q；常数κ的选择应确保B=RR（r）dr。我们注意到，q值越大，表示奖励预算的很大一部分支付给排名靠前的玩家，而q=0对应于奖励在排名靠前的α级之间的均匀分布。为了获得这样的回报，定理2.2的值函数和最佳效果允许闭式解：v（r）=κ（1+2q）（1- r） q- (1 - α） qr1- α1 - r！+，λ*（r） =1{r≤α} κ2c（r）（1+2q）2q（1- r） q+（1- α） qr1- α1 - r在边界条件α=1的情况下，当0<q<1时，不满足定理2.2的Lipschitz假设。然而，在这种情况下，可以通过直接计算来检查所示公式。通常，c.d.f.fτλ*（t） =通过求解ρ的Kolmogorov方程（2.2），可以数值计算任何试剂平衡完成时间的ρ（t）。反转平衡态过程也会产生量子位β=inf{t：ρ（t）≥ β}; 也就是说，直到β比例的球员达到目标的时间。在以下特殊情况下，这些量可以以闭合形式获得。2.1.1无断电的电力奖励这种情况对应于α=1，其中我们还假设成本c是恒定的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 05:07:36

然后Above公式专门化为v（r）=B（1+q）1+2q（1- r） q，λ*（r） =Bq（1+q）c（1+2q）（1- r） q，我们也可以解Fτλ*（t） =ρ（t）=1-1+Bq（1+q）c（1+2q）t-q及其β分位数Tβ=c（1+2q）Bq（1+q）[（1- β)-q- 1] . 我们看到q中的平衡值V在下降。也就是说，如果奖励方案严重偏向排名靠前的玩家，每个人的效果都会更差；这可归因于较大的出口水平λ造成的成本*在比赛开始的时候。我们还观察到λ*r值在下降，因此一旦更高级别的人员被填补，代理就会降低其效力。2.1.2切向均匀，这种情况对应于q=0，我们再次假设成本c是恒定的。一般公式现在专门化为v（r）=Bα1-r1级- α1 - r！+，λ*（r） =1{r≤α} B2cαr1- α1 - r、我们还有Fτλ*（t） =ρ（t）=1-1.-B√1.-α4cαt对于t≤ Tα和Fτλ*（t） =ρ（t）=α，对于t>tα，其中tα=4cα（1-√1.- α） B类√1.- α、（2.6）然后一般分位数是Tβ=4cα（1-√1.-β） B类√1.-α表示β≤ α和Tβ=∞对于β>α。与α=1的情况相反，我们看到λ*正在增加r forr≤ α：随着比赛的进行，经纪人会争夺剩余的报酬，并增加他们的努力，直到α-比例的经纪人达到目标，然后剩下的球员放弃；参见图2.0 0.2 0.4 0.6 0.8 1r0.51.52.5R（r）Rewardq=0q=0.4q=10 0.2 0.4 0.6 0.8 1r0.20.40.60.81.2λ*（r）最佳效率Q=0q=0.4q=1图2：在断电α=0.5，假设GB=1和c的情况下，功率奖励下的最佳效率≡ 1.2.2楼梯奖励考虑奖励方案R和楼梯的成本系数c FORM R=R[R，R]+nXj=2Rj（rj-1，rj]，c=c【r，r】+nXi=2cj（rj-1，rj]，其中R≥ R≥ ··· ≥ 注册护士≥ 0和0=r<r<····<rn=1是常数。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

能者818

2022-6-1 05:07:38

然后，公式（2.4）和（2.5）得出rj的公式-1<r≤ rj，v（r）=rj+√1.- r-Rjp1- rj+nXk=j+1Rkp1级- rk公司-1.-√1.- rk公司,λ*（r） =2cj√1.- rRjp1- rj公司-nXk=j+1Rkp1级- rk公司-1.-√1.- 国际扶轮社.我们声称平衡态ρ由ρ（t）=1给出-p1级- rj公司-1.-Aj4cj（t- tj公司-1), tj公司-1.≤ t型≤ tj，（2.7），其中Aj=Rjp1- rj公司-Pnk=j+1Rk(√1.- rk公司-1.-√1.- rk）和tjis由tj=tj递归定义-1+4cjAj（p1- rj公司-1.-p1级- rj）和t=0。应按照1/0=∞; 实际上，我们有Aj=0和tj=∞ 如果（且仅当）Rj=Rj+1=····=Rn。如（2.7）所示，我们可以依次求解每个间隔的ODE（2.2）[rj-1，rj]。设t=0。假设我们已经找到t，tj公司-1和ρ（t）表示t∈ [0，tj-1]. 然后第j个间隔上的代码读取ρ′（t）=Aj2cjp1- ρ（t），初始条件为ρ（tj-1） =rj-1解由（2.7）给出，而tjis通过条件ρ（tj）=rj确定。最后，让β∈ （0，1）。如有必要，通过向网格中添加β，我们可以在不丧失一般性的情况下假设β=rj，对于某些j∈ {1，…，n}，然后β分位数是Tβ=tj=Pjj=14cjAj（p1- rj公司-1.-p1级- rj）。3平均场委托-代理问题我们已经看到，对于给定的奖励方案R，存在唯一的（确定性）平衡状态ρ，因此对于α∈ （0，1），时间tα（R）=inf{t≥ 0：ρ（t）≥ α} ∈ (0, ∞]具有确定性且定义明确。这是人口的α-比例达到目标之前的时间，或者等效地，Tα是平衡到达时间τ分布的α-分位数*.在本节中，我们确定α∈ （0，1）且总奖励预算B>0，并根据约束thattrr（R）dr最小化Tα（R）的奖励方案R≤ B、这对应于第二个最佳意义上的委托代理问题：规划者可以为代理设定奖励，但不能支配他们对控制的选择。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

kedemingshi

2022-6-1 05:07:41

委托人认为，当代理的α比例达到其目标时，她的项目就完成了，并希望找到最短的完成时间t*α=infR∈R： RR（R）dr≤BTα（R），（3.1），其中R是所有奖励方案的集合。我们注意到，对于α=1，我们有Tα（R）=∞ 对于所有R，我们不考虑这种情况。另一方面，T*α<∞ 对于所有α∈ （0，1）因为这已经通过在α处切割的统一奖励R完成；参见（2.6）。对于我们的结果，需要对成本系数c进行额外的假设：r 7→c（r）（1）- r） 2- ris下降。（3.2）下面的备注3.2更详细地讨论了该假设。校长问题的解决方案如下所示。定理3.1。让c满足（3.2）。奖励预算B>0和α∈ （0，1），存在a.e.唯一最优奖励方案R*达到最小完成时间T*（3.1）的α，由*（r） =BC（rc（r）2- r+Zαr1- src（s）2- sds）[0，α]（r），（3.3）和最小完成时间isT*α=4CB，其中C=Zαpc（r）（2- r） 1个- rdr。（3.4）相应的平衡力为λ*（r） =B2Cp（2- r） c（r）[0，α]（r）。在成本c不变的特殊情况下，我们有*（r） =BC′√2.- r+对数（1+√2.- α)(1 -√2.- r）（1）-√2.- α)(1 +√2.- r）[0，α]（r），T*α=4cC′2B，C′=C√c类=√2.-√2.- α+对数（1+√2.- α)(1 -√2)(1 -√2.- α)(1 +√2).图1（在简介中呈现）显示了R*, λ*和ρ表示恒定成本系数c。如前所述，R*是[0，α]上的严格递减性和凹度，以及α处的不连续性。平衡力λ*在[0，α]上严格递增。对于常规c，产品√cλ*正在增加，但λ*不必如此。备注3.2。假设（3.2）是满足的，尤其是如果c在下降，这在我们考虑的应用中肯定是成立的。

扫码加我拉你入群

请注明：姓名-公司-职位

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

何人来此

2022-6-1 05:08:26

在这种情况下，我们有e2，n≤ Kh公司δ3/2<Kδ3/2。总之，E2，n≤Kδ，如果n+1≤ n≤ N- 2，Kδ3/2，如果Nrm<n≤ n、 Cδ，如果n≤ 尼泊尔卢比。（A.15）合并估计数。合并（A.13）、（A.14）和（A.15）并调用N-1.≤ Kδ，对于n+1，我们得到≤ n≤ N- 2该n≤ N-1+Kδ（N- 1.- n）≤ Kδ+K√δ<K√n的δ和≤ 第n个n≤ n+1+（2K+C）δ3/2（n+1- n） +3mCδ≤K√δ+（2K+C）√δ(1 -√δ+δ）+3mCδ<C√δ.把所有东西放在一起，我们有sup0≤n≤Nn≤最大值（5K/2，C）√N、需要注意的是| v′（r）|=| r（r）- v（r）| 2（1- r）≤（K，rm<r<1，r（0）2（1-rm），0≤ r≤ rm，因此，越南注册护士- v（r）≤ 注册护士+v注册护士N- v（r）≤ 注册护士+kv′k∞N<C√N、自λ起*（r） =r（r）-v（r）2c（r）和λNn=RNn+1-vNn2cNn，λn的收敛性来自于值函数和代价系数的一致收敛性，奖励方案的几乎一致收敛性，以及1/c的一致有界性。定理5.3的证明。我们首先观察到Riemann-sumCN的收敛：=2NαN-1Xn=0scNn（2-n+1N）（1-nN）（1-n+1N）→Zαpc（r）（2- r）（1）- r） dr=：C。收敛速度为O（1/N），因为cns以O（1/N）和√2.-r1级-ris-Lipschitz-continuouson[0，α]。利用定理3.1和4.3的公式，我们得出结论Limn→∞ETN公司αN= 画→∞4（CN）B=4CB=T*α，速率为O（1/N）。关于奖励方案的收敛性，我们大致观察到，对于r≤ α、 y型注册护士-1=scN注册护士-1N（N- 注册护士)（N）- 注册护士+ 1）（2N- 注册护士)→rc（r）2- r=y（r）和NαN-1Xk=注册护士-1yk1-k+1N→Zαry（s）1- sds，均匀分布在r中∈ [0，α]，速率为O（1/N）。因此，定理3.1和4.3中的公式得出注册护士=BCN公司y注册护士-1+αN-1Xk=注册护士-1ykN- k- 1.→卑诗省y（r）+Zαry（s）1- 十二烷基硫酸钠= R*（r）在r中均匀∈ [0，α]，速率为O（1/N）。推论5.4的证明。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群