全部版块 我的主页
论坛 经济学人 二区 外文文献专区
1327 32
2022-06-14
英文标题:
《Stochastic Comparative Statics in Markov Decision Processes》
---
作者:
Bar Light
---
最新提交年份:
2020
---
英文摘要:
  In multi-period stochastic optimization problems, the future optimal decision is a random variable whose distribution depends on the parameters of the optimization problem. We analyze how the expected value of this random variable changes as a function of the dynamic optimization parameters in the context of Markov decision processes. We call this analysis \\emph{stochastic comparative statics}. We derive both \\emph{comparative statics} results and \\emph{stochastic comparative statics} results showing how the current and future optimal decisions change in response to changes in the single-period payoff function, the discount factor, the initial state of the system, and the transition probability function. We apply our results to various models from the economics and operations research literature, including investment theory, dynamic pricing models, controlled random walks, and comparisons of stationary distributions.
---
中文摘要:
在多周期随机优化问题中,未来的最优决策是一个随机变量,其分布取决于优化问题的参数。我们分析了在马尔可夫决策过程中,这个随机变量的期望值是如何作为动态优化参数的函数变化的。我们把这种分析称为随机比较静力学。我们推导了{比较静力学}结果和{随机比较静力学}结果,表明当前和未来的最优决策如何随单期支付函数、贴现因子、系统初始状态和转移概率函数的变化而变化。我们将我们的结果应用于经济学和运筹学文献中的各种模型,包括投资理论、动态定价模型、受控随机游动和平稳分布的比较。
---
分类信息:

一级分类:Mathematics        数学
二级分类:Optimization and Control        优化与控制
分类描述:Operations research, linear programming, control theory, systems theory, optimal control, game theory
运筹学,线性规划,控制论,系统论,最优控制,博弈论
--
一级分类:Economics        经济学
二级分类:General Economics        一般经济学
分类描述:General methodological, applied, and empirical contributions to economics.
对经济学的一般方法、应用和经验贡献。
--
一级分类:Quantitative Finance        数量金融学
二级分类:Economics        经济学
分类描述:q-fin.EC is an alias for econ.GN. Economics, including micro and macro economics, international economics, theory of the firm, labor economics, and other economic topics outside finance
q-fin.ec是econ.gn的别名。经济学,包括微观和宏观经济学、国际经济学、企业理论、劳动经济学和其他金融以外的经济专题
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-6-14 11:37:48
马尔可夫决策过程中的随机比较静力学*2020年1月28日摘要:在多周期随机优化问题中,未来最优决策是一个随机变量,其分布取决于优化问题的参数。我们分析了在马尔可夫决策过程中,这个随机变量的期望值是如何作为动态优化参数的函数变化的。我们称这种分析为随机比较静力学。我们得出了比较静态结果和随机比较静态结果,表明当前和未来的最优决策如何随着单期支付函数、贴现因子、系统初始状态和转移概率函数的变化而变化。我们将我们的结果应用于经济学和运筹学文献中的各种模型,包括投资理论、动态定价模型、受控随机游走和平稳分布的比较。关键词:马尔可夫决策过程,比较静力学,随机比较静力学。MSC2000主题分类:90C40OR/MS主题分类:主要:动态规划/最优控制*斯坦福大学商学院,斯坦福,加利福尼亚州94305,美国。电子邮件:barl@stanford.edu1引言在经济学和运筹学研究中,一个广泛问题的兴趣在于优化问题的解对其参数是否单调。对这个问题的分析叫做比较静力学。继托普基斯的开创性工作(托普基斯,1978年)之后,比较静力学方法在经济学和运筹学文献中受到了极大的关注。虽然比较静力学方法通常适用于静态优化问题,但也可以应用于动态优化问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:37:51
特别是,这些方法可用于研究PolicyFunction如何随系统当前状态或动态优化问题的其他参数而变化。也就是说,对于多周期优化模型,可以使用比较静力学方法来确定当前周期的最优决策相对于优化问题的参数是如何变化的。例如,在马尔可夫决策过程中,在支付函数和转移函数的适当条件下,可以应用比较静态方法来表明,当系统状态固定时,最优决策在贴现因子中增加。但是,由于该模型是动态的,并且包含不确定性,在不同的贴现因子s下,统计数据的演变是不同的,因此,即使当前最优决策在固定状态下的贴现因子中增加,未来最优决策是否在贴现因子中增加也不清楚。从时段1的角度来看,时段t>1中系统的状态是一个随机变量,因此,时段t中的最优决策取决于时段t中系统的状态,是给定时段1中可用信息的随机变量。本文在马尔可夫决策过程(MDP)的背景下,分析了t期内最优决策的期望值作为优化问题参数的函数是如何变化的。我们称这种分析为草率的比较静力学。更准确地说,让(E,) 是包含MDP某些参数的偏序集。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:37:59
ForSee Topkis(2011),了解比较静力学方法的综合处理。例如,见李卡尔齐和维诺特(1992年)、米尔格罗姆和香农(1994年)、阿西(2002年)、埃切尼克(2002年)、安东尼亚杜(2007年)、夸赫(2007年)、夸赫和斯特鲁洛维奇(2009年)、西莱(2013年)、诺切蒂(2015年)、王安和李(2015年)、巴塞尔和萨巴尔瓦尔(2018年)以及科赫(2019年)。M¨uller(1997)和Smith and McCardle(2002)研究了最优值函数如何随动态优化问题的参数变化,如单周期支付函数和转移概率函数。相比之下,本文分析了最优策略函数。关于动态优化模型中的比较静态结果,请参见Serfozo(1976)、Lovejoy(1987)、Amir等人(1991)、Hopenhayn和Prescott(1992)、Mirman e t等人(2008)、Topkis(2011)、Krishnamurthy(2016)、Smith和Ulu(2017)、Lehrer和Light(2018)以及Dziewulski和Quah(2019)。例如,E可以是所有转移概率函数的集合、所有折扣因子的集合和/或影响支付函数的参数集合。假设在参数e下∈ 平稳策略函数由g(s,E)给出,其中s是系统的状态。给定策略函数g和系统的初始状态,系统的状态遵循随机过程。假设状态在周期t中的分布由概率度量ut(ds,e)描述。我们感兴趣的是找到条件,以确保周期t中的预期决策,Et(g(e))=Rg(s,e)ut(ds,e)在参数e中增加。预期值Et(g(e))以两种不同的方式解释。从概率的角度来看,Et(g(e))是t期内预期的最优决策,是参数e的函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:38:08
例如,在投资理论中,该期望值通常表示t期系统中预期的资本积累(Stokey和L ucas,1989)。在库存管理中,它代表t期的预期库存(Krishnan a and Winter,2010),在收入波动问题中,它代表t期的预期财富积累(参见Huggett(2004)和Bommier and Grand(2018))。从确定性的角度来看,如果我们考虑一个事先相同的主体群体,这些主体的状态根据控制状态动态的随机过程独立演化,那么ut表示周期t内状态的经验分布。在这种情况下,Et(g(e))对应于给定参数e的该人口在t期的平均决策。后一种解释在关于平稳平衡模型和平均场平衡模型的不断增长的文献中很常见。在本文献中,虽然重点是平衡分析,但已经获得了一些随机比较静力学结果(见Adlakha和Johari(2013)以及Acemoglu和Jensen(20 15))。这些随机比较静力学结果有助于分析这些模型的平衡。特别是,证明比较静力学结果并建立平衡的唯一性(见Hopenhayn(1992)、Light(20 18b)、Acemoglu和Jensen(201 8)、Light和Weintraub(2019))。本文的目的是在MDP的背景下提供一般的随机比较静力学结果。特别是,我们提供了有关MDP基本要素的各种有效条件,以保证与MDP重要参数(如贴现因子、单期支付函数和过渡概率函数)相关的统计比较静态结果。我们还提供了关于这些参数的新的比较静力学结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-14 11:38:11
例如,我们表明,在一组标准条件下,这意味着政策函数在该州增加,政策函数也在增加贴现系数(见第3.2节)。我们将我们的结果应用于具有调整成本的资本积累模型(Hopenhayn和Prescott,1992),具有参考效应的动态定价模型(Popescu和Wu,2007),以及控制随机游动。例如,考虑以下受控随机行走st+1=st+at+t+1,其中STI是周期t内系统的状态,atis是周期t内选择的动作,以及{t}∞t=1是独立的随机变量,在时间上分布相同。在每个阶段,决策者都会收到一份奖励,该奖励取决于系统的当前状态,并产生一笔成本,该成本取决于决策者在该阶段选择的行动。在系统状态下,报酬函数是递增的,而在决策者的行为中,成本函数是递增的。决策者的目标是使期望的报酬之和最大化。我们提供了报酬函数和成本函数的有效条件,以保证当随机噪声的分布在随机优势意义上更高时,决策者的当前行动和预期未来行动会增加。由于我们的结果是直观的,并且我们为推导随机比较静力学结果提供的充分条件在一些感兴趣的动态程序中得到了满足,我们相信我们的结果在其他应用中也适用。论文的其余部分组织如下。第2节介绍了动态优化模型。第2.1节介绍了本文中使用的定义和符号。在第3节中。1.我们给出了主要的随机比较静力学结果。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群