错指定马氏决策过程的均衡

2022-5-7 18:09:29

误判马尔科夫决策过程中的均衡*Ignacio Esponda Demian Pouzo（WUSTL）（加州大学伯克利分校）2016年5月17日摘要我们研究马尔可夫决策问题，其中代理不知道将当前状态和行为映射到未来状态的转移概率函数。代理对一组可能的转移函数有先验信念，并使用贝叶斯规则更新信念。我们允许她误判，因为真正的转移概率函数不支持她的先验知识。这个问题在许多经济环境中都是相关的，但研究人员通常无法分析。我们通过研究渐近行为使问题易于处理。我们提出了一个平衡概念，并提供了描述稳态行为的条件。在问题是静态的特殊情况下，均衡与伯克-纳什均衡的单一代理版本一致（Esponda和Pouzo，2016）。我们还讨论了一些微妙的问题，这些问题完全是在动态环境中出现的，因为实验可能具有负价值。*我们感谢弗拉基米尔·阿斯里扬、赫克托·查德、陈晓红、埃米利奥·埃斯皮诺、德鲁·福登伯格、布鲁斯·汉森、菲利普·杰希尔、杰克·波特、菲利普·里戈莱特、汤姆·萨金特、伊万·韦宁以及几位研讨会参与者提供的有益意见。Esponda：奥林商学院，圣路易斯华盛顿大学，布鲁金斯大道1号，美国密苏里州圣路易斯市1133号校园信箱，邮编63130，iesponda@wustl.edu;普佐：加州大学伯克利分校经济系，地址：加利福尼亚州伯克利市埃文斯厅530-1号，邮编：94720，dpouzo@econ.berkeley.edu.Contents1简介12马尔可夫决策过程63主观马尔可夫决策过程83.1设置。93.2平衡。103.3正确指定和识别的SMDP。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:09:33

124例134.1动态需求未知的垄断者。134.2不确定未来工作机会的搜索。164.3具有相关冲击的随机增长。205平衡基础226平衡结果297结论32参考文献32附录36在线附录461简介对研究持有错误世界观的代理人行为的早期兴趣（例如，Arrow and Green（1973）、Kirman（1975）、Sobel（1984）、Kagel andLevin（1986）、Nyarko（1991），萨金特（1999年））最近由皮奇奥尼和鲁宾斯坦（2003年）、杰希尔（2005年）、埃斯特和拉宾（2005年）、杰赫兰·科斯勒（2008年）、埃斯邦达（2008年）、埃斯邦达和普佐（2012年、2016年）、埃斯特和皮奇奥尼（2013年）、斯皮格勒（2013年、2016a年、2016b年）、海德休斯等人（2016年）和福登伯格等人（2016年）的研究进行了更新。这种兴趣至少有两个原因。首先，代理对其复杂环境的不确定性是很自然的，并用可能被错误指定的简约参数模型来表示这种不确定性。其次，赋予代理错误指定的模型可以解释行为中的某些偏差是如何作为基元的函数内生产生的。以前的文献主要关注本质上是“静态”的问题，从某种意义上说，它们可以被视为静态问题的重复，在静态问题中，周期之间的唯一联系是因为代理正在学习模型的参数而产生的。然而，动态决策问题在经济学中普遍存在，即代理人选择影响状态变量（而非信念）的行为。本文的主要目标是提供一个易于处理的框架，以研究代理学习可能存在错误模型的动态环境。我们研究了一个马尔可夫决策过程，其中单个代理以离散时间间隔选择操作。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:09:38

转移概率函数描述了主体的行为和当前状态如何影响下一阶段的状态。当前的收益是状态和行为的函数。我们假设代理对真实转移概率函数不确定，并希望最大化预期贴现支付。她对一组可能的转移函数有先验信念，她的模型可能存在误判，这意味着我们不需要真正的转移概率函数来支持她先前的模型。在观察到实现状态后，代理使用贝叶斯规则更新herbelief。为了更好地说明主要问题和结果，考虑一个收益未知的动态储蓄问题，其中s是当前收入，x是储蓄的选择，π（s）-x）是当前消费的回报，下一个时期的收入是提取的。我们将错误定义的模型作为原始模型，并假设代理人在给定模型的情况下学习和行为最佳。相比之下，Hansen和Sargent（2008）研究了偏好稳健性的代理的最佳行为，因为他们意识到模型误判的可能性。从分布Q（·| s，x）。然而，代理不知道返回分布Q。她有一个参数模型，表示由参数θ索引的可能返回分布Qθ的集合∈ Θ. 代理在Θ上有一个先验u，该信念根据当前收入、储蓄决策和下一期实现的收入使用贝叶斯规则更新，u=B（s，x，s，u），其中B表示贝叶斯算子，u表示后验信念。如果代理人之前的支持包括真实的回报分布Q，则该代理人的指定是正确的，否则，该代理人的指定是错误的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:09:41

我们通过以下贝尔曼方程递归地表示这个问题：W（s，u）=maxx∈[0，s]π（s）- x） +Δ^^W（s，u）Qθ（ds | s，x）u（dθ），（1）这个贝尔曼方程的解决定了状态、行为和信念的演化。大量的计算文献提供了一些算法，代理和研究人员可以使用这些算法来近似解决问题，例如（1），其中abelief是状态变量的一部分；参见Powell（2007），了解教科书中的处理方法。然而，经济学家面临的问题是，这些数值方法通常不允许我们对行为做出一般性预测。我们建议通过描述代理的稳定状态行为和信念来规避这个问题。我们要问的主要问题是，我们是否可以用一个信念没有更新的问题，比如v（s）=maxx，来代替一个动态规划问题，比如（1）∈[0，s]π（s）- x） +^V（s）\'Qu*（ds | s，x），（2）其中*代理人对Θ和¨Qu的平衡或稳态信念*=ΘQθu*（dθ）是相应的主观转移概率函数。我们将这个问题称为马尔可夫决策过程（MDP），其转移概率函数为¨Qu*.这种方法的主要优点是，只要我们能够描述平衡*, 它避免了在状态空间中包含信念的需要，从而使问题更易于分析。这种对平衡行为的关注确实是经济学的一个显著特征。我们首先定义了一个平衡的概念，以捕捉稳态行为。当然，我们不希望不太复杂的代理应用这些数值方法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-7 18:09:46

但是，按照文献中的标准观点，对于研究人员来说，动态规划方法仍然是一个有用的工具，可以用来建模一个代理面对跨期交易的行为，以及一个不知道真实转移概率函数的代理的信念。我们将这一概念称为伯克-纳什均衡，因为在环境是静态的特殊情况下，它被简化为伯克-纳什均衡的单代理版本，这是由Esponda和Pouzo（2016）引入的一个概念，用于描述在静态环境中存在错误代理的稳态状态行为。MDP isa中从国家到行动的映射策略；回想一下，信仰不包括在MDP的状态中。对于给定的策略和真实的转移概率函数，MDP中状态和行为的随机过程是一个马尔可夫链，并且具有相应的平稳分布，可以解释为稳态分布。如果存在信念，则策略和相应的平稳分布是Berk-Nash均衡*在参数空间上，这样：（i）对于具有转移概率函数“Qu”的MDP，该策略是最优的*, 和（ii）μ*将概率1放在一组参数值上，这些参数值产生与真实转移概率函数“最接近”的转移概率函数。“最近”的概念由依赖于平衡平稳分布的Kullback-Leibler散度的加权版本给出。我们使用这个框架来回顾三个经典的例子。这些例子说明了我们的框架如何使具有不确定性的动态环境易于分析，并扩展了经典动态规划方法的范围。首先，我们考虑需求函数未知的垄断者的经典问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

2022-5-7 18:09:50

我们假设需求是动态的，因此当前时期的销售会影响下一时期的销售可能性。然而，垄断者的模型有误，认为需求不是动态的。我们证明，认为需求不是动态的垄断者不一定会设定更高的价格。第二个示例是一个搜索模型，在这个模型中，员工没有意识到，在实际上很难找到另一份工作的时候，她被解雇的概率更高。我们发现，她对找到新工作的机会变得悲观，并以次优的方式接受太低的工资。最后一个例子是一个随机增长模型，沿着（1）所表示的问题。代理人决定每个时期投资多少收入，这与未知的生产过程一起决定下一个时期的收入。我们假设对代理人的能力和生产力都有相关的冲击，但代理人认为这些冲击是独立的。如果这些冲击正相关，那么当生产率较低时，不特定的代理人会将更多的收入投入。她最终低估了生产率，因此低估了均衡投资。然后，我们通过研究贝叶斯代理的限制行为来为伯克-纳什均衡提供基础，贝叶斯代理在每个周期都会采取行动并更新其关于转移概率函数的信念。我们询问均衡方法是否适用于这种环境，即，“是否有可能通过参考一个简单的MDP来描述贝叶斯代理的稳态行为，在该MDP中，代理对转移概率函数有固定（尽管可能不正确）的信念？”如果代理人非常不耐烦，答案是肯定的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:09:53

但是，如果代理人有足够的耐心，在动态环境中会出现一些微妙的问题，导致更微妙的答案：如果我们将注意力限制在具有我们称之为穷举学习特性的稳定状态，答案是肯定的。在穷尽性学习下，代理人意识到，在稳定状态下，她没有其他东西要学。在前一个例子的上下文中，这个条件保证问题（1）中的最优操作在问题（2）中也是最优的。如果没有彻底的学习，问题（2）中的行动可能是最优的，因为代理人没有更新她的信念。但是，如果她更新信仰，同样的行动可能是次优的，因为正如我们在本文中所展示的，在动态环境中，实验的价值可能是负面的。这种情况在静态环境下是不可能的，因为值函数只是信念的函数，它的凸性和贝叶斯信念的鞅性质意味着实验的值总是非负的。穷举学习的概念在动态环境中激发了伯克-纳什均衡的自然需求。然而，由于缺乏实验，这种情况仍然允许信念被纠正，这是班迪特（如罗斯柴尔德（1974b）、麦克伦南（1984）、伊斯利和基弗（1988））和自我确认平衡（如巴蒂加利（1987）、福登伯格和莱文（1993）、德克尔等人（2004）、费尔什特曼和帕克斯（2012））文献的一个标志。继Selten（1975）之后，我们定义了一个更进一步的、完美的Berk-Nash均衡，以描述对实验具有鲁棒性的行为，并为其存在提供条件。我们对信念和行为的渐近描述有助于研究贝叶斯学习下的渐近信念和/或行为。表1对一些与我们工作相关的论文进行了分类。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:09:57

左边的表格包括一些文件，其中代理人从外生数据中学习，即她不影响数据的随机特性。此主题正确指定了DmisSpecified正确指定了DmisSpecified DI。i、 d.Schwartz[65]Freedman[63]Diaconis Freedman[86]Berk[65]Bunke Milhaud[98]StaticRothschild[74]^Gittins[79]^McLennan[84]^Easley Kiefer[88]Aghion[91]Nyarko[91]^Esponda[08]^Esponda Pouzo[16]Heidhues[16]non-i.i.d.Ghosal-Van der Vart[07]Shalizi[09]Vayanos-Rabin[10]Dynamicfreis[81]^Koulonanos[09]Vatis[09]这篇论文纸质外生数据内生数据表1：统计人员主要针对正确指定和错误指定的模型，以及i.i.d.和非i.i.d.数据，研究贝叶斯学习的文献。右边的表格包括一些文件，代理人从这些文件中学习到的数据是内生的，因为这些数据是由代理人的行为驱动的，经济学家主要在静态环境中研究这个主题。所谓静态，我们的意思是，如果去掉学习动力，这个问题将简化为静态优化问题。表1还区分了研究渐近信念和/或行为的两种互补方法。第一种方法是专注于特定设置，并提供渐近行为和信念的完整特征，包括收敛结果；这些论文在表1中用上标^标记。一些论文在动态和正确指定的随机增长模型中采用这种方法（例如，Freixas（1981），Koulovatianos等人（2009））。Nyarko（1991年）、Esponda（2008年）和Heidhues等人（2016年）在静态错误设定的情况下研究了没有实验动机的被动学习问题。福登伯格等人。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:00

（2016）是唯一一篇在主动学习的动态决策问题中提供完整描述的论文。，我们在本文中遵循的第二种方法正式地说，如果对于固定的策略和对转移概率函数的信念，结果（状态和行动）在时间上是独立的，那么问题是静态的。在主动学习下，不同的行为传递不同数量的信息，非近视者会考虑利用与实验的权衡。在静态和动态环境中都可以进行被动或主动学习。Fudenberg et al.（2016）中的环境是动态的，因为主体控制着布朗运动的漂移，即使最优性的唯一相关状态变量最终是主体的信念。我们之前对静态情况（Esponda和Pouzo，2016）的研究是研究一般设置，重点是描述稳态集。本文还与为均衡概念提供学习基础的文献有关，如纳什或自我确认均衡（见Fudenberg-andLevine（1998）的调查）。与本文献相反，我们考虑了马尔可夫决策问题，并考虑了错误指定的模型。在广泛形式的游戏中研究了特定类型的误认。Jehiel（1995）考虑了重复交替移动游戏的类别，并假设玩家只预测未来有限的时间段；学习基金会见Jehiel（1998）。我们有一个共同的特点，即学习过程发生在游戏中，而信念是在给定数据的情况下提供最佳效果的信念。第2节和第3节介绍了框架和平衡概念。在第4节中，我们介绍了几个例子。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:06

我们为第5节的均衡提供了基础，并在第6.2节马尔可夫决策过程中研究了均衡需求。我们首先描述了代理所面临的环境。定义1。马尔可夫决策过程（MDP）是一个元组hS，X，Γ，q，q，π，δi其中oS是一组非空且有限的状态oX是一组非空且有限的动作oΓ：S→ 2x是非空约束对应关系oq∈ （S）是初始状态的概率分布oQ:Gr（Γ）→ （S）是转移概率函数oπ：Gr（Γ）×S→ R是一个逐期支付函数。在宏观经济学中，有几种模型，其中代理使用的统计模型是错误的（例如，Evans and Honkapohja（2001）第13章，Sargent（1999）第6章）。Jehiel和Samet（2007）考虑了具有完美信息的广泛形式博弈的一般类，并假设玩家通过将节点划分为相似类来简化博弈。对于通信Γ：S→ 2X，其图形由Gr（Γ）定义≡ {（s，x）∈ S×X:X∈ Γ（s）}δ ∈ [0，1）是一个贴现因子。我们有时使用MDP（Q）来表示带有转移概率函数Q的MDP，并排除剩余的原语。时间安排如下。在每个周期的开始t=0，1，2，…，agentobserves状态st∈ 选择一个可行的行动∈ Γ（st） X.然后根据概率分布Q（·| st，xt）绘制一个新的statest+1，并在周期t中根据agentreceives Payoffπ（st，xt，st+1）绘制初始状态。根据概率分布Q绘制初始状态。面对MDP的代理选择一个策略规则，在每个时间点指定一个（可能是随机的）动作，作为观察到的状态和动作历史的函数指向

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:10

通常，代理人的目标是选择一个可行的政策规则，以最大化预期贴现效用P∞t=0δtπ（st，xt，st+1）。根据最优性原理，agent的问题可以递归地转换为vq（s）=maxx∈Γ（s）^s{π（s，x，s）+δVQ（s）}Q（ds|s，x）（3）式中VQ:s→ R是Bellman方程（3）的（唯一）解。定义2。策略σ是给定状态下动作的分布，σ：S→ （十）满足σ（s）∈ Γ（s）表示所有s。设∑表示所有策略的空间，设σ（x | s）表示当状态为s定义3时，代理选择x的概率。策略∈ ∑对于MDP（Q）如果，对于所有∈ S和allx∈ 使得σ（X | s）>0，X∈ arg max^x∈Γ（s）^s{π（s，^x，s）+δVQ（s）}Q（ds|s，^x）。设∑（Q）为MDP（Q）的最优策略集。一个标准的结果是确定性最优策略的存在。然而，在转移概率函数不确定的情况下，允许随机化是很重要的。引理1。（i）（3）中的Bellman方程有一个唯一的解Vqt，对于所有s，它在Q中是连续的∈ s（ii）最优策略的对应关系SQ 7→ ∑（Q）是非空、紧值、凸值和上半连续的。证据证据是标准的，并归入在线附录。策略决定状态和动作空间中的转换，从而决定状态和动作上的平稳分布集。对于任意策略σ和转移概率函数Q，定义一个转移核Mσ，Q:Gr（Γ）→ （Gr（Γ））通过lettingMσ，Q（s，x | s，x）=σ（x | s）Q（s | s，x）（4）表示所有（s，x），（s，x）∈ Gr（Γ）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:13

转移核Mσ，qi是给定策略σ和转移概率函数Q的Gr（Γ）上的转移概率函数∈ （Gr（Γ）），设Mσ，Q[M]∈ （Gr（Γ））表示概率测度x（s，x）∈Gr（Γ）Mσ，Q（·，·| s，x）M（s，x）。定义4。分布图∈ （Gr（Γ））是给定（σ，Q）的平稳（或不变）分布，如果m=mσ，Q[m]。平稳分布表示当代理遵循给定策略时，结果（即状态和行动）的稳态分布。让智商（σ）≡ {m∈（Gr（Γ））|m=mσ，Q[m]}表示给定的平稳分布集（σ，Q）。引理2。平稳分布σ7的对应关系→ IQ（σ）是非空、紧值、凸值和上半连续的。证据见附录。3主观马尔可夫决策过程我们的主要目标是研究面对MDP但不确定转移概率函数的代理的行为。我们首先引入一个新的对象来建模不确定性问题，我们称之为主观马尔科夫决策过程（SMDP）。然后，我们定义了SMDP的伯克-纳什均衡的概念。3.1设置定义5。主观马尔可夫决策过程（SMDP）是一个MDP，hS，X，Γ，q，q，π，δi和一个非空的转移概率函数族，qΘ={qθ：θ∈ 其中每个转移概率函数Qθ：Gr（Γ）→ （S）由一个参数θ表示∈ Θ.我们将集合QΘ解释为agent认为可能的不同转移概率函数（或世界模型）。我们有时使用SMDP（Q，QΘ）来表示一个SMDP，它具有真转移概率函数Q和一系列转移概率函数QΘ。定义6。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:17

正则主观马尔可夫决策过程（正则SMDP）是满足以下条件的SMDPoΘ是欧几里德空间的一个紧子集。oQθ（s | s，x）作为θ的函数是连续的∈ Θ为所有人（s、s、x）∈ S×Gr（Γ）有一个密集的集合 Θ因此，对于所有θ∈^Θ，Qθ（s | s，x）>0表示所有（s，s，x）∈ S×Gr（Γ）使得Q（S | S，x）>0。定义6中的前两个条件将参数和连续性假设置于主观模型上。最后一个条件有两个作用。首先，它通过保证存在至少一个参数值来合理化每一个可行的观察结果，从而规定了一种明显的误判形式。其次，这意味着与真实模型最接近的参数的对应关系是上半连续的。Esponda和Pouzo（2016）提供了一个简单（非动态）的例子，其中该假设不成立，平衡不存在。如果没有有限维参数空间的假设，即使在正确指定的统计设置中，贝叶斯更新也不需要收敛到大多数先验和参数值的真值（Freedman（1963）、Diaconis和Freedman（1986））。请注意，如果状态或动作集不确定，参数假设只是一种限制，我们在一些示例中考虑了这种情况。3.2均衡本节的目标是定义SMDP的伯克-纳什均衡概念。下一个定义用于对信念施加约束∈ （Θ）如果m是结果的平稳分布，则代理可能持有。定义7。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:20

加权Kullback-Leibler散度（wKLD）是一个映射kq：（Gr（Γ））×Θ→“\'R+使任何m∈ （Gr（Γ））和θ∈ Θ，KQ（m，θ）=X（s，X）∈Gr（Γ）EQ（·s，x）自然对数Q（S | S，x）Qθ（S | S，x）m（s，x）。给定m的一组最接近的参数值∈ （Gr（Γ））是集合ΘQ（m）≡ arg minθ∈ΘKQ（m，θ）。当从分布m得出结果时，集合ΘQ（m）包含的参数值与真转移概率函数Q构成最佳拟合。引理3。（i）每m∈ （Gr（Γ））和θ∈ Θ，KQ（m，θ）≥ 当且仅当Qθ（·| s，x）=Q（·| s，x）对于所有（s，x）的等式保持，使得m（s，x）>0。（ii）对于任何常规SMDP（Q，QΘ），m 7→ ΘQ（m）是非空的、紧值的、上半连续的。证据见附录。我们现在定义了平衡。定义8。策略与概率分布（σ，m）∈ Σ × （Gr（Γ））是SMDP（Q，QΘ）的aBerk-Nash均衡，如果存在一个信念∈ （i）σ是MDP的最佳策略（\'Qu），其中\'Qu=\'Qθu（dθ），（ii）u∈ （Q（m））和（iii）m∈ IQ（σ）。伯克-纳什均衡定义中的条件（i）要求σ是MDP中的最优策略，其中转移概率函数为ΘQθu（dθ）。条件（ii）要求代理仅对给定m，ΘQ（m）的一组最接近的参数值施加正概率。最后，条件（iii）要求m是给定的静态分布（σ，Q）。备注1。在第5节中，我们将均衡集解释为一个学习环境的稳态集，其中agent对Q不确定。均衡方法的主要优点是，它允许我们用一个简单的MDP和固定的转移概率函数来代替一个困难的学习问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:23

这种方法的代价是，它只能用来描述渐近行为，而不是从状态的初始分布q开始的实际动力学∈ （S）。这就解释了为什么qd没有进入平衡的定义，以及为什么qa和相应平衡集之间的映射通常无法提供。备注2。在静态环境的特殊情况下，定义8简化为Espondaan和Pouzo（2016）对单个代理的Berk-Nash均衡的定义。在动态环境中，结果遵循马尔可夫过程，我们不仅要跟踪策略，还要跟踪结果的相应平稳分布。下一个结果建立了任何规则SMDP中平衡的存在性。定理1。对于任何正规SMDP，都存在Berk-Nash均衡。证据见附录。证明存在的标准方法始于定义战略空间中的“最佳响应”。这种方法在这里不起作用，因为信念的可能非唯一性意味着对应关系可能不具有凸值。我们采用的技巧是通过策略、平稳分布和信念空间上的对应关系来定义均衡，然后使用引理1、2和3证明这种对应关系满足Kakutani不动点定理的广义版本的假设。Esponda和Pouzo（2016）依靠扰动来证明静态环境中平衡的存在。相比之下，我们的方法不需要使用扰动。3.3正确指定和识别的SMDP如果主观模型集包含真实模型，则SMDP是正确指定的。定义9。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:27

如果Q∈ QΘ；在决策问题中，数据是内生的，因此，继Esponda和Pouzo（2016）之后，自然会考虑两个识别概念：弱识别和强识别。这些定义区分了平衡的结果和影响。在动态环境中，描述均衡路径上发生的事情的正确对象不是策略，而是结果m定义的平稳分布10。给定m，SMDP是弱识别的∈ （Gr（Γ））如果θ，θ∈ΘQ（m）表示所有（s，x）的Qθ（·s，x）=Qθ（·s，x）∈ Gr（Γ）使得m（s，x）>0；如果所有（s，x）的条件都满足∈ Gr（Γ），我们说，给定m，SMDP是强识别的。如果SMDP对所有m都是弱（强）识别的，则SMDP是弱（强）识别的∈ （Gr（Γ））。弱识别意味着，对于任何平衡分布m，Agent都是沿着平衡路径的唯一信念，即对于以正概率发生的状态和行为。事实证明，这是一个重要的条件，可以提供对实验具有鲁棒性（见第6节）且在正确指定的SMDP中始终满足的平衡。强烈的认同通过要求信念在平衡路径上也是唯一的，从而强化了条件。提议1。考虑一个具有相应MDP（Q）的正确规定和强烈识别的SMDP。策略与概率分布（σ，m）∈ Σ × （Gr（Γ））是SMDP的Berk-Nash均衡，当且仅当σ在给定MDP（Q）时为最优，且m在给定σ时为平稳分布。以下是弱识别失败的示例。假设一枚无偏硬币在每个周期内被抛出，但代理人认为硬币出现的概率是1/4或3/4，而不是1/2。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

大多数88

2022-5-7 18:10:30

然后，1/4和3/4都会使库尔贝克-莱布勒分歧最小化，但它们意味着对结果的不同分配。与此相关的是，伯克（Berk，1966）证明了信念并不一致。证据仅当：假设（σ，m）是Berk-Nash均衡。然后存在μ，例如给定MDP（\'Qu），σ是最优的∈ （Θ（m）），以及∈ 智商（σ）。因为MDP是正确指定的，所以存在θ*这样Qθ*= Q，因此，是3（i），θ*∈ （Θ（m））。然后，通过强识别，任何^θ∈ Θ（m）满意度Q^θ=Qθ*= Q、这意味着，给定MDP（Q），σ也是最优的。如果：让我∈ IQ（σ），其中σ是给定MDP（Q）的最佳值。由于SMDP的规格正确，因此存在θ*这样Qθ*= 因此，通过引理3（i），θ*∈ （Θ（m））。因此，给定Qθ，σ也是最优的*, 这意味着（σ，m）是伯克-纳什均衡。命题1表示，在代理人对转移概率函数不确定，但其主观模型既有正确的定义，又有强烈的识别性的环境中，伯克-纳什均衡对应于转移概率函数正确信念下的MDP解。如果放弃SMDP被强烈识别的假设，则命题的“如果”部分继续成立，但“仅如果”条件不成立。换句话说，可能存在正确指定的SMDP的伯克-纳什均衡，其中代理对均衡路径有错误的信念。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:33

平衡的这一特征类似于班迪特和自我确认的平衡文献的主要观点。4个示例我们使用三个经典示例来说明使用我们的框架扩展经典动态规划方法的范围是多么容易。4.1动态需求未知的垄断者Rothschild（1974b）和Nyarko（1991）分别在正确和错误的设置下研究了垄断者面临未知静态需求函数的问题。在下面的例子中，垄断者面对一个动态的需求函数，但错误地认为需求是静态的。MDP：在每个时期t，垄断者选择价格xt∈ X={L，H}，其中0<L<H。然后销售st+1∈ S={0，1}单位，成本为零，并得到π（xt，st+1）=xtst+1。st+1=1的概率为qsx≡ Q（1 | st=s，xt=x），其中0<qsx<1表示所有（s，x）∈ Gr（Γ）=S×X。垄断者希望一组可行的行动独立于国家，也就是说，对于所有的S，Γ（S）=X∈ 利用贴现系数δ最大化预期贴现利润∈ [0,1）。需求是动态的，因为昨天的销售增加了今天的销售概率：q1x>q0xfor all x∈ X.此外，更高的价格降低了销售的可能性：qsL>QSH对于所有的s∈ S、最后，对于混凝土，我们假设q1lq1h<HL<q0Lq0H。（5）表达式（5）表示，如果上一期没有销售，则选择priceL，否则选择price H（即Lq0L>Hq0HandHq1H>Lq1L），从而使当期利润最大化。因此，知道原语的近视垄断者（即δ=0）的最优策略是σ（H | 0）=0和σ（H | 1）=1。然而，如果垄断者有足够的耐心，最好总是选择价格L.SMDP。垄断者不知道Q，错误地认为需求不是动态的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:38

形式上，QΘ={Qθ：θ∈ 其中，对于所有θ=（θL，θH）∈ Θ，Qθ（1 | s，L）=θLand Qθ（1 | s，H）=θH对于所有s∈ 特别是，θxis是给定价格x时发生销售的概率∈ {L，H}，代理相信它不依赖于s。注意，这个SMDP是正则的。为了简单起见，我们将注意力集中在垄断者不以最后一个周期的状态为条件的均衡上，并用σH表示策略，即选择价格H的概率。平衡最优性。因为垄断者认为需求是静态的，所以最佳策略是选择使当期利润最大化的价格(θ) ≡ HθH- LθL注意到在参数值为θ=（θL，θH）且概率为1的情况下，选择H和L的感知预期收益差异。如果（θ） >0，σH=1是唯一的最优策略；如果（θ） <0，σH=0是唯一的最优策略；安迪夫（θ） =0，任意σH∈ [0,1]是最优的。信仰。对任何人来说∈ （S×X），wKLD简化toKQ（m，θ）=Xx∈{L，H}mX（x）{sx（m）lnθx+（1）- \'sx（m））ln（1- θx）}+Const，形式上存在Cδ∈ [q1L/q1H，q0L/q0H]，其中C=q1L/Q17→ Cδ在增加，因此，如果H/L<Cδ，最优策略是σ（H | 0）=σ（H | 1）=0。式中，sx（m）=mS|X（0|X）q0x+mS|X（0|X）qxis是给定X的销售概率。如果σL>0且σH>0，θQ（m）≡ （\'sL（m），\'sH（m））是使wKLD函数最小化的唯一参数值。然而，如果以零概率选择其中一个价格，则对相应参数的信念没有限制，即，最小值集为ΘQ（m）={（θL，θH）∈ Θ：θH=\'sH（m）}如果σL=0且ΘQ（m）={（θL，θH）∈ Θ：θL=\'sL（m）}如果σH=0。平稳分布。固定策略σ手用m（·；σH）表示相应的平稳分布∈ （S×X）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-7 18:10:41

由于该策略不依赖于状态，因此mS |X（·|X；σH）不依赖于X，因此与S上的边缘平稳分布一致，用mS（·；σH）表示∈ （S）。这个分布是唯一的，由解tomS（1；σH）=（1）给出- mS（1；σH））（（1）- σH）q0L+σHq0H）+mS（1；σH）（（1）- σH）q1L+σHq1H）。平衡我们通过关注信念θ（σH）=（θL（σH），θH（σH））来限制对实验稳健的平衡的关注（即完美平衡；参见第6节）≡ 给定策略σH的θQ（m（·；σH））∈ [0, 1].接下来，让我们（θ（σH））是给定策略σH的预期收益差异。注意σH7→ （θ（σH））在下降，这意味着选择价格H的概率越高，人们对选择H和L的好处就越悲观。因此，存在一种独特的（完美的）均衡策略。图1描述了一个均衡为混合策略的例子。自从（θ（0））>0，总是选择低价的管理者必须相信均衡，即设定高价反而是最优的。同样地，（θ（1））<0意味着总是选择高价格的代理必须相信均衡，即设定低价格不会是最优的。因此，在均衡状态下，代理选择严格混合的策略*H∈ （0，1）使(θ(σ*H））=0。σH=0和σH=1分别是由信念θH（0）=0和θL（1）=0支持的伯克-纳什均衡。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:45

然而，这些结果对实验并不可靠，通过求θH（0）=limσH可以消除→0\'sH（m（·；σH））=\'sH（m（·；0）），对于θL（1）也是如此。原因是ddσH（θ（σH））=ddσHmS（1；σH）（H（q1H）- q0H）+L（q1L）- q0L）>0，因为所有x的σHmS（1；σH）<0和q1x>q0x∈ {L，H}。参见Esponda和Pouzo（2016），了解混合策略在特定环境中的重要性。更一般地说，唯一平衡是σH=0，如果（θ（0））<0（即HL≤ D≡q0L（1-q1L）q0H+q1Hq0L），σH=1如果（θ（1））>0（即HL≥ D≡ (1 - q1H）q0Lq0H+q1L），和σ*H∈ （0，1）解决方案(θ(σ*H）如果D<HL<D，则=0，其中q1lq1h<D<q0Lq1H。1σ*HσHb（θ（·））图1：垄断的均衡举例：由于她没有意识到今天的高价格会让她在未来付出代价，因此，不规范的垄断者最终可能会选择比最优价格更高的价格。但是，更令人惊讶的是，她最终可能会为一些原语选择更低的价格。原因是她没有意识到H在s=1状态下表现相对较好，这使得她对H没有吸引力。4.2关于未来工作的不确定性搜索自McCall（1970）以来，搜索理论模型一直是理解劳动力市场的核心。大多数文献都假设工人知道所有的原语。例外情况包括Rothschild（1974年a）和Burdett and Vishwanath（1988年），其中工人不知道工资分布，但有一个正确指定的模型。相比之下，我们研究的是一名工人或企业家，她知道新项目的工资或回报分布，但不知道她能够找到新工作或资助新项目的可能性。然而，在很难找到新工作或资助新项目的情况下，员工或企业家没有意识到自己被解雇或项目失败的概率更高。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:48

我们发现，工人或企业家对发现新前景的机会变得悲观，并在均衡状态下接受低回报的前景。MDP。在每个阶段t的开始，工人（或企业家）将面临下注者（或有回报的项目）wt∈ S=[0,1]并决定是拒绝还是接受它，xt∈ X={0，1}。她在t期的报酬是π（wt，xt）=wtxt；i、 e，如果Cδ<H/L<D，则她会获得报酬；见脚注14和18。可行行动集独立于状态，即对于所有w，Γ（w）=X∈ 她接受，否则归零。在做出决定后，经济基本面∈ Z是从i.i.d.分布G中提取的。如果工人被雇佣，则她（或项目失败）的概率为γ（zt）。如果该工人失业（无论是因为她被雇佣，然后又失业，还是因为她在该期间开始时没有接受雇佣），那么她用概率λ（zt）得出一个新的工资wt+1∈[0,1]根据密度为F的绝对连续分布F；工资是独立的，并且在不同的时间内分布相同。概率为1- λ（zt），失业工人得不到任何工资，我们用wt+1=0来表示相应的状态，而不丧失一般性。工人必须在下一周期开始时决定是否接受或拒绝wt+1。如果工人在时间t开始时接受了工资为wt的工作，但没有被解雇，那么她将从工资为wt+1=wt的下一个周期开始，并将再次决定是辞职还是继续在该周期工作。代理商希望通过折扣系数δ最大化折扣预期效用∈ [0, 1).

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:52

假设γ≡ E[γ（Z）]>0和λ≡ E[λ（Z）]>0。我们假设Cov（γ（Z），λ（Z））<0；例如，当经济基本面强劲时，工人更有可能获得报酬，而当经济基本面疲软时，工人获得报酬的可能性较小。SMDP。工人知道除λ（·）之外的所有原语，λ（·）决定了接受服务的可能性。工人有一个错误的世界模型，认为λ（·）不依赖于经济基础，即λ（z）=θ∈ Z，其中θ∈ [0，1]是未知参数。转移概率函数Qθ（w | w，x）如下：如果x=1，那么w=w，概率为1- θ、 wis a从概率θγ的F中得出，w=0的概率为（1）- θ)γ; 如果x=0，那么从概率θ的F和概率1的w=0中得出- θ.平衡最优性。假设工人相信真实参数为θ，概率为1。获得工资的价值∈ S isV（w）=max{w+δ（（1- γ） V（w）+（1）- θ） γV（0）+θγE[V（W）]，0+δ（θE[V（W）]+（1- θ） V（0））}。为了简化表示法，我们假设基本原理未被观察到，但如果观察到，结果是相同的，因为它是i.i.d.并且是在工人做出决定后实现的。形式上，Q（w | w，x）如下：如果x=1，那么w=w，概率为1- γ、 wis是概率为E[γ（Z）λ（Z）]的F的一个图，概率为E[γ（Z）（1）的w=0- λ（Z））]；如果x=0，那么w=0，F的概率为λ，w=0的概率为1- λ.如果试剂也不确定γ（·），则结果相同；考虑到当前的错误定义，代理只关心γ的期望值，并对其有正确的信念。根据标准参数，她的最优策略是一个平稳的保留工资策略w（θ），它解决了以下方程：w（θ）（1）- δ + δγ) = δθ(1 - γ） ^w>w（θ）（w- w（θ））F（dw）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:55

（6）工人接受高于保留工资的工资，拒绝低于保留工资的工资。还有θ7→ w（θ）在增加：获得工资的可能性越高，她就越愿意等待未来更好的工资。图2描述了一个示例。信仰。对任何人来说∈ （S×X），wKLD简化toKQ（m，θ）=^S×XEQ（·w，X）hlnQ（w | w，X）Qθ（w | w，X）im（d | w，dx）=nE[γλ]lnE[γλ]γθ+E[γ（1）- λ） ]lnE[γ（1）- λ)]γ(1 - θ） omX（1）+nλlnλθ+（1）- λ） ln1- λ1 - θomX（0），其中，由于工人知道，所以WC的密度减小，其中mx是X上的边际分布。在在线附录中，我们证明了使KQ（m，·）最小的唯一参数是θQ（m）≡mX（0）mX（0）+mX（1）γλ+1.-mX（0）mX（0）+mX（1）γλ+Cov（γ，λ）γ. （7）要了解等式（7）背后的直觉，请注意，代理人只观察λ的实现，即，当她失业时，她是否收到工资。失业可以是自愿的，也可以是非自愿的。在第一种情况下，代理人拒绝支付，因为这一决定发生在基本面实现之前，它与是否获得支付无关。因此，在自愿失业的条件下，代理人将观察到获得福利的无偏平均概率λ（见第（7）项RHS中的第一项）。在第二种情况下，代理人接受服务，但被拒绝。由于Cov（γ，λ）<0，她不太可能在发红的时期受到影响，因为她没有考虑这种相关性，相对于平均概率λ（7）的RHS中的第二项捕捉到了这种偏差）。1“Eλ”θM“wM”1“w”θ“w（θ）%θ（w）%”图2：搜索模型平稳分布的平衡。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:10:58

固定保留工资策略w，并用mX（·；w）表示相应平稳分布的边际X∈ （十）。在联机附录中，我们对mX（·；w）进行了表征，并表明w 7→ mX（0；w）正在增加。从直觉上看，工人越挑剔，失业的可能性就越高。平衡设θ（ω）≡ θQ（m（·；w））表示代理遵循保留工资策略w的均衡信念。等式（7）中λ上的权重表示在失业条件下自愿失业的可能性。这个重量以ω为单位递增，因为W7→ mX（0；w）正在增加。因此，W7→ θ（w）在增加。在w=1的极端情况下，工人拒绝所有工作，失业始终是自愿的，偏见消失，θ（1）=λ。计划θ（·）的示例如图2所示。Berk-Nash平衡集由w（·）和θ（·）的交集给出。在图2所示的例子中，有一个独特的平衡策略wM=w（θM），其中θM<λ。最后，我们将伯克-纳什均衡与一个了解原语的工人的最优策略进行比较，w*. 根据标准参数，w*这是唯一的解决方案吗*(1 - δ + δγ) = δ(λ - E[γλ]^w>w*（w）- W*) F（dw）。（8）等式（6）和（8）之间唯一的差异出现在乘以thrhs这一术语中，它反映了接受工资福利的成本。在错误指定的情况下，该项为Δθ（1-γ); 在正确的情况下，它是δ（λ）- E[γλ]=Δλ（1）-γ)-δCov（γ，λ）。这种特殊性通过两种方式影响最佳阈值。首先，误判者错误地估计了λ的平均值，即θ<λ；因此，她（错误地）认为，在预期中，顾客到达的概率较低。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:11:03

其次，她没有意识到，因为Cov（γ，λ）<0，她在发烧时不太可能受到影响。这两种影响的方向是相同的，使得拒绝和等待下一个时期获得新工资的可能性对特殊员工的吸引力降低。形式上，θδ（1）- γ) < δλ(1 - γ) - δCov（γ，λ）和so wM<w*.4.3具有相关冲击的随机增长自Brock和Mirman（1972）的工作以来，随机增长模型一直是研究资本和消费跨期最优配置的核心。Freixas（1981年）和Koulovatianos等人（2009年）假设代理人通过正确指定的模型学习分销过剩产能冲击。我们遵循Hall（1997）和随后的文献，将冲击纳入偏好和生产率，但假设这些冲击（正）相关。我们表明，未能解释冲击相关性的代理人在均衡状态下投资不足。MDP。在每个时间段t中，一个代理观察st=（yt，zt）∈ S=R+×{L，H}，其中Y是前一时期的收入，ZT是当前的效用冲击，并选择要储蓄多少收入，xt∈ Γ（yt，zt）=[0，yt] X=R+，消耗剩下的。当期效用为π（yt，zt，xt）=ztln（yt- xt）。下一期收入yt+1由n yt+1=α给出*+ β*ln xt+εt，（9）式中εt=γ*zt+ξ这是一个未观察到的生产率冲击，ξt~ N（0,1）和0<Δβ*<1，其中δ∈ [0，1）是贴现系数。我们假设γ*> 0，因此效用和生产率冲击正相关。设0<L<H，设q∈ （0，1）是冲击波为H.SMDP的概率。代理相信ln yt+1=α+βln xt+εt，（10）形式上，Q（y，z | y，z，x）是与yand zare无关的，具有平均α的对数正态分布*+ β*lnx+γ*z和单位方差，z=H和概率q，其中εt~ N（0，1），与效用冲击无关。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

2022-5-7 18:11:06

为简单起见，我们假设代理人知道效用冲击的分布，并且不确定θ=（α，β）∈ Θ=R。主观转移概率函数Qθ（y，z | y，z，x）是独立的，y为对数正态分布，平均α+βln x和单位方差，z=H为概率Q。代理人有一个错误的模型，因为她认为生产率和效用冲击实际上是独立的*6= 0.平衡最优性。agent的Bellman方程isV（y，z）=max0≤十、≤yz ln（y）- x） +δE[V（Y，Z）|x]可以直接验证最优策略是投资一小部分收益，这取决于效用冲击和未知参数β，即x=Az（β）·Y，其中AL（β）=Δβ（（1-q） L+qH）（1-δβ(1-q） H+Δβ（1）-q）和AH（β）=Δβ（（1-q） L+qH）ΔβqH+（1-Δβq）L<AL（β）。对于了解原语的代理来说，最佳策略是投资分形（β）*) 和啊（β*) 分别处于低位和高位。自β7以来→ Az（β）在增加，通过将β的平衡信念与真实β进行比较，可以将错误指定的试剂的平衡策略与最佳策略进行比较*.信念和平稳分布。设A=（AL，AH），其中AH<AL，表示Astragy，其中Azi是给定公用事业冲击z的投资收入比例。因为代理认为ε独立于公用事业冲击且呈正态分布，最小化wKLD函数相当于执行公式（10）的OLS回归。因此，对于由a=（AL，AH）表示的策略，使wKLD最小化的参数值β（a）=Cov（lny，lnx）var（lnx）=Cov（lny，lnazy）var（lnazy）=β*+ γ*Cov（Z，ln-AZ）V-ar（ln-AZ）+V-ar（Y）。式中，Cov和V ar是根据（Y，Z）的（真实）平稳分布计算的。因为AH<AL，那么Cov（Z，ln-AZ）<0。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

mingdashike22

2022-5-7 18:11:10

因此，假设γ*> 0表示偏差β（A）- β*是负的，其大小取决于策略A。直觉上，当z较低时，代理人投资收入的较大部分，而这恰好发生在ε也较低的时候。平衡通过证明函数^β（AL（β），AH（β））至少有一个固定点，我们确定存在至少一个正投资均衡。函数在β中是连续的，满足β（AL（0），AH（0））=β（AL（1/δ），AH（1/δ））=β*β（AL（β），AH（β））<β*无论如何∈ (0, 1/δ). 那么既然*< 1.至少存在一个固定点βM，且任何固定点满足βM∈ (0, β*). 因此，与最优策略相比，错误指定的代理在均衡中投资不足。如果γ*< 0，说明了该框架如何提供对依赖于原语的信念和行为的预测（而不是简单地假设代理对生产率的认知过高或过低）。5均衡基础在本节中，我们为SMDP的伯克-纳什均衡概念提供了学习基础。我们定义了一个SMDP，并假设该代理是贝叶斯的，并以先验知识开始∈ （Θ）在她那套世界模型之上。她观察过去的行为和状态，并利用这些信息更新她在每个时期对Θ的信念。定义11。对于任何（s，x，s）∈ Gr（Γ）×S，设B（S，x，S，·）：Ds，x，S→ （Θ）表示贝叶斯算子：对于所有A ΘBorelB（s，x，s，u）（A）=AQθ（s | s，x）u（dθ）ΘQθ（s | s，x）u（dθ）。（11）任何情况下∈ Ds，x，s，其中Ds，x，s={p∈ （Θ）：\'ΘQθ（s | s，x）p（dθ）>0}。定义12。贝叶斯主观马尔可夫决策过程（BayesianSMDP）是一个SMDP（Q，QΘ）和一个先验参数∈ （Θ）和Bayesianoperator B（见定义11）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝