全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1249 59
2022-05-07
英文标题:
《Equilibrium in Misspecified Markov Decision Processes》
---
作者:
Ignacio Esponda and Demian Pouzo
---
最新提交年份:
2016
---
英文摘要:
  We study Markov decision problems where the agent does not know the transition probability function mapping current states and actions to future states. The agent has a prior belief over a set of possible transition functions and updates beliefs using Bayes\' rule. We allow her to be misspecified in the sense that the true transition probability function is not in the support of her prior. This problem is relevant in many economic settings but is usually not amenable to analysis by the researcher. We make the problem tractable by studying asymptotic behavior. We propose an equilibrium notion and provide conditions under which it characterizes steady state behavior. In the special case where the problem is static, equilibrium coincides with the single-agent version of Berk-Nash equilibrium (Esponda and Pouzo (2016)). We also discuss subtle issues that arise exclusively in dynamic settings due to the possibility of a negative value of experimentation.
---
中文摘要:
我们研究了马尔可夫决策问题,其中agent不知道将当前状态和行为映射到未来状态的转移概率函数。代理对一组可能的转移函数具有先验信念,并使用贝叶斯规则更新信念。我们允许她被错误地指定,因为真正的转移概率函数不支持她的先验知识。这个问题在许多经济环境中都是相关的,但通常不适合研究人员进行分析。我们通过研究渐近行为使问题易于处理。我们提出了一个平衡概念,并给出了它描述稳态行为的条件。在问题是静态的特殊情况下,均衡与Berk-Nash均衡的单代理版本一致(Esponda和Pouzo(2016))。我们还讨论了一些微妙的问题,这些问题完全是在动态环境中出现的,因为实验可能具有负面价值。
---
分类信息:

一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--
一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-7 18:09:29
误判马尔科夫决策过程中的均衡*Ignacio Esponda Demian Pouzo(WUSTL)(加州大学伯克利分校)2016年5月17日摘要我们研究马尔可夫决策问题,其中代理不知道将当前状态和行为映射到未来状态的转移概率函数。代理对一组可能的转移函数有先验信念,并使用贝叶斯规则更新信念。我们允许她误判,因为真正的转移概率函数不支持她的先验知识。这个问题在许多经济环境中都是相关的,但研究人员通常无法分析。我们通过研究渐近行为使问题易于处理。我们提出了一个平衡概念,并提供了描述稳态行为的条件。在问题是静态的特殊情况下,均衡与伯克-纳什均衡的单一代理版本一致(Esponda和Pouzo,2016)。我们还讨论了一些微妙的问题,这些问题完全是在动态环境中出现的,因为实验可能具有负价值。*我们感谢弗拉基米尔·阿斯里扬、赫克托·查德、陈晓红、埃米利奥·埃斯皮诺、德鲁·福登伯格、布鲁斯·汉森、菲利普·杰希尔、杰克·波特、菲利普·里戈莱特、汤姆·萨金特、伊万·韦宁以及几位研讨会参与者提供的有益意见。Esponda:奥林商学院,圣路易斯华盛顿大学,布鲁金斯大道1号,美国密苏里州圣路易斯市1133号校园信箱,邮编63130,iesponda@wustl.edu;普佐:加州大学伯克利分校经济系,地址:加利福尼亚州伯克利市埃文斯厅530-1号,邮编:94720,dpouzo@econ.berkeley.edu.Contents1简介12马尔可夫决策过程63主观马尔可夫决策过程83.1设置。93.2平衡。103.3正确指定和识别的SMDP。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:09:33
124例134.1动态需求未知的垄断者。134.2不确定未来工作机会的搜索。164.3具有相关冲击的随机增长。205平衡基础226平衡结果297结论32参考文献32附录36在线附录461简介对研究持有错误世界观的代理人行为的早期兴趣(例如,Arrow and Green(1973)、Kirman(1975)、Sobel(1984)、Kagel andLevin(1986)、Nyarko(1991),萨金特(1999年))最近由皮奇奥尼和鲁宾斯坦(2003年)、杰希尔(2005年)、埃斯特和拉宾(2005年)、杰赫兰·科斯勒(2008年)、埃斯邦达(2008年)、埃斯邦达和普佐(2012年、2016年)、埃斯特和皮奇奥尼(2013年)、斯皮格勒(2013年、2016a年、2016b年)、海德休斯等人(2016年)和福登伯格等人(2016年)的研究进行了更新。这种兴趣至少有两个原因。首先,代理对其复杂环境的不确定性是很自然的,并用可能被错误指定的简约参数模型来表示这种不确定性。其次,赋予代理错误指定的模型可以解释行为中的某些偏差是如何作为基元的函数内生产生的。以前的文献主要关注本质上是“静态”的问题,从某种意义上说,它们可以被视为静态问题的重复,在静态问题中,周期之间的唯一联系是因为代理正在学习模型的参数而产生的。然而,动态决策问题在经济学中普遍存在,即代理人选择影响状态变量(而非信念)的行为。本文的主要目标是提供一个易于处理的框架,以研究代理学习可能存在错误模型的动态环境。我们研究了一个马尔可夫决策过程,其中单个代理以离散时间间隔选择操作。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:09:38
转移概率函数描述了主体的行为和当前状态如何影响下一阶段的状态。当前的收益是状态和行为的函数。我们假设代理对真实转移概率函数不确定,并希望最大化预期贴现支付。她对一组可能的转移函数有先验信念,她的模型可能存在误判,这意味着我们不需要真正的转移概率函数来支持她先前的模型。在观察到实现状态后,代理使用贝叶斯规则更新herbelief。为了更好地说明主要问题和结果,考虑一个收益未知的动态储蓄问题,其中s是当前收入,x是储蓄的选择,π(s)-x) 是当前消费的回报,下一个时期的收入是提取的。我们将错误定义的模型作为原始模型,并假设代理人在给定模型的情况下学习和行为最佳。相比之下,Hansen和Sargent(2008)研究了偏好稳健性的代理的最佳行为,因为他们意识到模型误判的可能性。从分布Q(·| s,x)。然而,代理不知道返回分布Q。她有一个参数模型,表示由参数θ索引的可能返回分布Qθ的集合∈ Θ. 代理在Θ上有一个先验u,该信念根据当前收入、储蓄决策和下一期实现的收入使用贝叶斯规则更新,u=B(s,x,s,u),其中B表示贝叶斯算子,u表示后验信念。如果代理人之前的支持包括真实的回报分布Q,则该代理人的指定是正确的,否则,该代理人的指定是错误的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:09:41
我们通过以下贝尔曼方程递归地表示这个问题:W(s,u)=maxx∈[0,s]π(s)- x) +Δ^^W(s,u)Qθ(ds | s,x)u(dθ),(1)这个贝尔曼方程的解决定了状态、行为和信念的演化。大量的计算文献提供了一些算法,代理和研究人员可以使用这些算法来近似解决问题,例如(1),其中abelief是状态变量的一部分;参见Powell(2007),了解教科书中的处理方法。然而,经济学家面临的问题是,这些数值方法通常不允许我们对行为做出一般性预测。我们建议通过描述代理的稳定状态行为和信念来规避这个问题。我们要问的主要问题是,我们是否可以用一个信念没有更新的问题,比如v(s)=maxx,来代替一个动态规划问题,比如(1)∈[0,s]π(s)- x) +^V(s)\'Qu*(ds | s,x),(2)其中*代理人对Θ和¨Qu的平衡或稳态信念*=ΘQθu*(dθ)是相应的主观转移概率函数。我们将这个问题称为马尔可夫决策过程(MDP),其转移概率函数为¨Qu*.这种方法的主要优点是,只要我们能够描述平衡*, 它避免了在状态空间中包含信念的需要,从而使问题更易于分析。这种对平衡行为的关注确实是经济学的一个显著特征。我们首先定义了一个平衡的概念,以捕捉稳态行为。当然,我们不希望不太复杂的代理应用这些数值方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:09:46
但是,按照文献中的标准观点,对于研究人员来说,动态规划方法仍然是一个有用的工具,可以用来建模一个代理面对跨期交易的行为,以及一个不知道真实转移概率函数的代理的信念。我们将这一概念称为伯克-纳什均衡,因为在环境是静态的特殊情况下,它被简化为伯克-纳什均衡的单代理版本,这是由Esponda和Pouzo(2016)引入的一个概念,用于描述在静态环境中存在错误代理的稳态状态行为。MDP isa中从国家到行动的映射策略;回想一下,信仰不包括在MDP的状态中。对于给定的策略和真实的转移概率函数,MDP中状态和行为的随机过程是一个马尔可夫链,并且具有相应的平稳分布,可以解释为稳态分布。如果存在信念,则策略和相应的平稳分布是Berk-Nash均衡*在参数空间上,这样:(i)对于具有转移概率函数“Qu”的MDP,该策略是最优的*, 和(ii)μ*将概率1放在一组参数值上,这些参数值产生与真实转移概率函数“最接近”的转移概率函数。“最近”的概念由依赖于平衡平稳分布的Kullback-Leibler散度的加权版本给出。我们使用这个框架来回顾三个经典的例子。这些例子说明了我们的框架如何使具有不确定性的动态环境易于分析,并扩展了经典动态规划方法的范围。首先,我们考虑需求函数未知的垄断者的经典问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群