全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-5-7 18:11:17
证据是标准的,并归入在线附录。让h∞= (s,x,…,st,xt,…)表示动态优化问题的有限历史或结果路径,并让H∞≡ (Gr(Γ))∞代表实体历史的空间。对于每t,设ut:H∞→ (Θ)表示代理人的贝叶斯信念,递归定义为ut=B(st-1,xt-1,st,ut-1) 当ut-1.∈ Dst-1,xt-1、st(见定义11),以及其他任意性。我们假设代理遵循一些策略函数。在每个时间段t中,都有一个状态代表一个信念ut,代理选择一个(可能混合的)动作f(·st,ut)∈ (十) 。在实现动作XT后,状态st+1脱离真实转移概率。代理观察已实现的动作和新状态,并使用贝叶斯规则将其信念更新为ut+1。贝叶斯SMDP的原语(包括状态q上的初始分布和先验分布)∈ (Θ))和一个策略函数f在H上产生一个概率分布∞这是以标准方式定义的;让Pf表示H上的概率分布∞.我们现在将策略和结果定义为随机变量。对于固定策略函数f和每个t,设σt:H∞→ ∑表示代理的策略,通过设置σt(h∞) = f(·|·,ut(h∞)) ∈ Σ.最后,对于每一个t,让mt:H∞→ (Gr(Γ))对于所有t,h∞, 和(s,x)∈ Gr(Γ),mt(s,x | h)∞) =ttXτ=0(s,x)(sτ,xτ)是在时间t之前,结果(s,x)发生的次数。声称代理已达到稳定状态的一个合理标准是,她的策略和结果的时间平均值收敛。定义14。策略与概率分布(σ,m)∈ Σ × (Gr(Γ))可用于具有先验u和策略函数f的贝叶斯SMDP,如果存在setH 当Pf(H)>0时,对于所有H∞∈ H、 作为t→ ∞,σt(h)∞) → σ和mt(h)∞) → M
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:20
(13) 此外,如果存在一种信念*以及一个子序列(ut(j))j,如ut(j)(h∞)W→ u*(14) 对于所有人(s,x)∈ Gr(Γ),u*= B(s,x,s,u)*) 为了所有的人∈ 是这样的,Qu*(s | s,x)>0,则(σ,m)称为穷举学习稳定。条件(13)要求策略和结果的时间频率稳定。通过紧性,存在一系列收敛的信念。穷举学习的附加要求是,其中一个子序列的极限点为u*, 被认为是贝叶斯算子的一个固定点,这意味着无论代理考虑什么状态和策略,她都不期望自己的信念改变。因此,代理人认为,在这种情况下,所有的学习可能性都已耗尽*. 然而,这种情况并不意味着代理人在稳定状态下有正确的信念。下一个结果表明,如果结果的时间平均值稳定在m,那么信念就会越来越集中于ΘQ(m)。引理5。考虑一个具有真转移概率函数Q的正规贝叶斯SMDP,完全支持先验知识∈ (Θ)和策略函数f。假设(mt)t对集合H中的所有历史都收敛到m 使得Pf(H)>0。那么,对于allopen设置U ΘQ(m),limt→∞ut(U)=1Pf-a.s.在H.证明中。见附录。引理5的证明澄清了伯克-纳什均衡定义中wKLD函数的起源。该证明将Esponda和Pouzo(2016)对引理2的证明应用于动态环境。引理5扩展了错误学习统计(伯克(Berk)(1966)、邦克和米尔豪德(Bunke and Milhaud)(1998)、沙利兹(Shalizi)(2009))的结果,考虑了一种环境,即代理人从马尔可夫环境中自身行为内生产生的数据中学习。以下结果为SMDP的伯克-纳什均衡概念提供了学习基础。定理2。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:23
存在‘δ∈ [0,1]这样:(i)对于所有δ≤δ,如果(σ,m)对于完全支持先验u且策略函数f为最优的常规贝叶斯SMDP是稳定的,那么(σ,m)是SMDP的Berk-Nash均衡。(ii)对于所有δ>δ,如果(σ,m)对于正规BayesianSMDP的穷举学习是稳定的,且充分支持先验u和最优的策略函数f,那么(σ,m)是SMDP的Berk-Nash均衡。证据见附录。定理2为伯克-纳什均衡提供了一个学习证明。证据背后的主要思想如下。我们总是可以找到一个后验序列,它收敛到某个μ*通过引理5和行为收敛到σ的事实,可以得出σ必须解决信念收敛到μ的动态优化问题*∈ ΘQ(m)。此外,通过σToσ的收敛性和传递核σ7的连续性→ Mσ,Q,鞅收敛定理的一个应用意味着mt渐近等于Mσ,Q[mt]。这个事实,算子Mσ,Q[·]的线性和mtto M的收敛性意味着M是给定σ的不变分布。证明的结论是,σ不仅解决了信念收敛到μ的优化问题*但也解决了MDP问题,在MDP中,信念永远无法实现*. 当然,如果代理非常不耐烦,这是正确的,这解释了定理2第(i)部分为什么成立。对于有足够耐心的代理人,结果依赖于稳态满足穷举学习的假设。我们现在举例说明并讨论这个假设的作用。实例在初始阶段,风险中性代理人有四种投资选择:a、B、S和O。行动a支付1- θ*, 动作B支付θ*, 行动S在初始阶段支付2/3的安全报酬,其中θ*∈ {0, 1}. 对于这三种选择中的任何一种,决策问题到此为止,代理人在所有未来时期的报酬均为零。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:26
行动O给予代理人的报酬为-1/3在初始阶段和选择权下一阶段进行投资,其中有两种可能的状态,即Saa和sB。如果θ*= 1,如果θ*= 0.在上述每个州,代理人都可以选择进行风险投资或安全投资。安全投资在这两个州的回报率为2/3,在未来所有时期的后续回报率为零。风险投资给代理人的报酬是她从选择a中获得的报酬的三倍,即3(1)- θ*), 如果状态是sA,它会给代理人三倍于她从选项B中获得的报酬,即3θ*,如果国家是某人;所有未来时期的收益均为零。假设代理知道除θ值以外的所有基元*. 设Θ={0,1};特别是,SMDP是正确指定的。我们现在表明,在anyBerk-Nash均衡中,一个有效的患者代理人永远不会选择安全行动S:Letu∈ [0,1]表示主体对θ概率的平衡信念*= 1.为了使行动S优于A和B,必须满足以下条件:∈ [1/3, 2/3]. 但是,对于固定的u,行动O的感知收益是-+ δuV¨Qu(sA)+(1)- u)V'Qu(sB)= -+ δumax{,3(1- u)} + (1 - u)最大{,3u}≥ -+ δ6u(1 - u),严格高于所有u∈ [1/3,2/3]前提是δ>δ=3/4。因此,对于一个有充分耐心的代理人来说,不存在使行动S最优的信念,因此,在任何伯克-纳什均衡中都不会选择S。现在考虑一个贝叶斯代理,它从一个先验的u=Pr(θ=1)开始∈ (0,1)并更新了她的信仰。行动的价值在于-+ δ(uW(sA,1)+(1- u)W(sB,0))=-+ δ<因为W(sA,1)=W(sB,0)=2/3。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:30
换句话说,代理人意识到,如果该州实现了SAI,那么她将更新她的信念到u=1,这意味着该州的安全投资是最优的;同样的论点也适用于州某人。然后,她发现选择行动A是最佳选择≤ 1/3,B如果u≥ 2/3,如果u∈ [1/3, 2/3].特别是,对于某些先验来说,选择S是一个稳定状态的结果,尽管在任何伯克-纳什均衡中,如果代理人是有充分耐心的,则不会选择S。然而,这种信念并不能满足彻底的学习,因为代理人相信任何其他行动都会完全揭示所有的不确定性。更一般地说,如果一个主体是有充分耐心的,那么稳态就不能成为伯克-纳什均衡,因为实验的价值可能是有益的。为了了解这一点,假设在代理的信念为ubeV alueExp(s,x;u)时,在状态W下对动作x的实验值≡ equ(·s,x)[W(s,B(s,x,s,u))]- E’Qu(·s,x)V’Qu(S).该表达式是代理更新其先前u时的值与代理具有固定信念u时的值之间的差异。一个不考虑未来信念变化的代理人可能最终会选择一个实验值为负值的行动,而在考虑信念变化时,这个行动实际上是次优的。在上一个示例中,给定u的作用O的实验值为(uW(sA,1)+(1- u)W(sB,0))-uV¨Qu(sA)+(1)- u)V'Qu(sB),减少到2/3- 6u(1 - u)和u的值为负值,使sb优于A和B。因此,如果代理人不考虑信念的变化,行动O可能是最优的,但如果她考虑了,则可能是次优的。我们现在具体讨论如何在定理2的证明中使用穷举学习的性质。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:34
如果一个行动支持一个稳定的战略,我们称之为稳态行动,否则我们称之为非稳态行动。关键的一步是要表明,如果在更新信念时,稳态行为优于非稳态行为,那么在信念固定时也会更好。这是真的,前提是在稳态下进行实验的价值为零,这是由穷举学习保证的。如果我们不进行详尽的学习,而只是简单地要求我们进行实验,那么稳态行为的实验就没有任何价值。上一个例子说明了一个问题,即对于非稳态行为,实验值可能为负值。因此,在信念更新的问题中,非稳态行为可能是次优的,但在信念未更新的问题中,非稳态行为可能是最优的(因此不考虑实验的负值)。如Esponda和Pouzo(2016)所示,这种担忧不会出现在静态环境中,其中唯一的状态变量是信念。原因在于,价值函数的凸性和贝叶斯的鞅性质简单地证明了实验的价值总是非负的。最后,我们对定理2进行了补充说明。备注3。贴现因子:在定理2的证明中,我们提供了作为基元函数的δ的精确值。然而,这一界限可能并不明显。正如上面的例子所示,为了计算一个锐利的界限,我们必须通过学习来解决动态优化问题,这正是我们通过关注伯克-纳什均衡来试图避免的。收敛性:定理2并不意味着行为必然会在SMDP中稳定下来。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:38
事实上,从马尔可夫链理论可知,即使节点决定影响相关的转换,如果没有进一步的假设,结果也不需要稳定。因此,我们不能指望对结果的收敛性有一般性的说法,例如,在学习在博弈中发挥纳什均衡的相关背景下,这也是正确的。因此,该定理为特定环境下的收敛问题留下了空白,这一问题需要其他工具(如随机逼近),最好通过明确研究特定环境类的动力学来解决(见引言中的参考文献)。混合策略:定理2还提出了一个问题,即混合策略如何变得稳定,因为一般来说,代理人不太可能持有使他们在任何时候都完全不同的信念。Fudenberg和Kreps(1993年)在学习玩混合策略均衡的背景下提出了同样的问题,并通过在la Harsanyi(1973年)中加入小的支付扰动来回答:代理人实际上并不混合;相反,每个周期的收益都会受到小扰动的影响,我们称之为混合策略,简单地说就是通过使用纯策略并对收益扰动进行积分而产生的概率分布。我们在介绍静态环境下伯克-纳什均衡的论文中采用了这种方法(Esponda和Pouzo,2016)。同样的想法也适用于这里,但我们省略了支付扰动以减少符号负担。6平衡点理论2意味着,对于有足够耐心的参与者,我们应该对以下伯克-纳什平衡点感兴趣。定义15。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:42
策略与概率分布(σ,m)∈ Σ × (Gr(Γ))如果aBerk-Nash均衡是由一个信念支持的,则是一个Berk-Nash均衡,具有SMDP的穷举学习*∈ (Θ)为了所有(s,x)∈ Gr(Γ),u*= B(s,x,s,u)*)为了所有的人∈ 是这样的,Qu*(s | s,x)>0。在穷举学习的均衡中,有一种支持性信念被认为是贝叶斯算子的一个固定点,这意味着无论代理考虑什么状态和策略,她都不希望自己的信念改变。例如,在博弈论文献中,一般的全局收敛结果只在特殊类别的博弈中得到,例如零和博弈、势博弈和超模博弈(Hoffauerand Sandholm,2002)。Doraszelski和Escobar(2010)将支付扰动纳入动态环境。穷举学习的要求并不意味着对实验的鲁棒性。例如,在第4.1节研究的垄断问题中,选择概率为1的低价是一个具有穷尽学习的均衡,这是由概率为1的θ的信念支持的*L=0。我们通过引入进一步的平衡,排除了对实验不可靠的平衡。定义16。ε-扰动SMDP是一种SMDP,其中策略被限制为∑ε={σ∈ ∑:σ(x | s)≥ ε表示所有(s,x)∈ Gr(Γ)}。定义17。策略与概率分布(σ,m)∈ Σ × (Gr(Γ))是一个SMDP的完全Berk-Nash均衡,如果存在一个序列(σε,mε)ε>0的Berk-Nash均衡,且ε-扰动SMDP的穷举学习收敛到(σ,m)ε→ 0.塞尔滕(1975)在广泛形式的游戏中引入了完美的概念。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:45
然而,完美本身并不能保证所有(s,x)∈ Gr(Γ)在MDP中达到。下一个属性保证当代理以正概率选择所有策略时,可以到达所有状态。定义18。MDP(Q)可以满足所有人的充分沟通∈ S、 存在有限序列(S,…,sn)和(x,x,…,xn),因此(si,xi)∈ Gr(Γ)表示alli=0,1。。。,n和Q(s | sn,xn)Q(sn | sn)-1,xn-1) 。。。Q(s | s,x)>0。如果相应的MDP满足,则SMDP满足充分沟通。充分沟通是MDP理论的标准,在第4节的所有示例中都适用。它保证了所有ε-扰动环境都有一个单一的循环状态类。在不成立且存在不止一类循环状态的情况下,我们仍然可以通过形式化聚焦应用以下结果,为了得到一个序列,我们将ε>0作为有理数;在下文中,我们将这一点保留下来,以减轻符号负担。只要代理正确地认为她不能从一个经常性课程转到另一个,就可以忽略其他课程。充分的沟通保证了在一个受干扰的SMDP中不会出现效果均衡的结果。然而,这并不排除在平衡路径上进行实验的愿望。我们通过要求弱识别来排除后者。提议2。假设一个SMDP是弱识别、ε-扰动和令人满意的通信。(i) 如果SMDP是正则的,如果(σ,m)对于贝叶斯SMDP是稳定的,那么它在穷举学习中也是稳定的。(ii)如果(σ,m)是一个Berk-Nash均衡,那么它也是一个具有穷举学习的Berk-Nash均衡。证据
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:50
见附录。命题2提供了这样的条件:稳态满足穷举学习,伯克-纳什均衡可以由满足穷举学习条件的信念来支持。在这些条件下,我们可以通过考虑扰动环境并将扰动降至零(参见第4节中的示例),找到对实验具有鲁棒性的平衡,即完美平衡。下一个命题表明,完美伯克-纳什是伯克-纳什与穷举学习的结合。如第4.1节中的垄断示例所示,这是一种严格的竞争。提议3。正则SMDP的任何完美Berk-Nash均衡都是具有穷举学习的Berk-Nash均衡。证据见附录。我们通过证明完美伯克-纳什均衡的存在性得出结论(因此,命题3给出了具有穷举学习的伯克-纳什均衡)。定理3。对于任何弱识别且满足充分沟通的常规SMDP,都存在一个完美的伯克-纳什均衡。证据见附录。7结论我们研究了马尔可夫决策过程,其中代理对一组可能的转移概率函数具有先验知识,并使用贝叶斯规则更新她的信念。这个问题在许多经济环境中都是相关的,但通常不便于分析。我们建议通过研究渐近信念和行为使其更易于理解。问题的答案是“贝叶斯SMDP的稳态可以通过参考具有固定信念的MDP来表征吗?”是合格的是。如果代理非常不耐烦,则必须关注伯克-纳什均衡集。另一方面,如果代理有足够的耐心,并且我们对穷举学习的稳定状态感兴趣,那么这些稳定状态的特征是穷举学习的伯克-纳什均衡。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:53
最后,如果我们对实验稳健的均衡感兴趣,我们可以将注意力限制在一组完美的伯克-纳什均衡上。我们的结果适用于正确指定和错误指定的情况,我们不知道这两种情况之前的一般结果。对于正确的特定情况,我们的结果可以证明文献中的常见假设,即如果强识别成立(或存在弱识别,且对实验稳健的平衡感兴趣),那么代理知道转移概率函数。在误判的情况下,我们的结果显著扩大了可能的应用范围。参考Saliprantis,C.D.和K.C.Border,有限维分析:搭便车指南,Springer Verlag,2006年。Arrow,K.和J.Green,“贝叶斯环境下的期望均衡注释”,数学研究所,社会科学工作文件331973号。Battigalli,P.,米兰博科尼大学内乔奇·内尔·西图阿齐奥尼·西图阿齐奥·西图阿齐奥西亚利地区均衡成分研究所,1987年。Berk,R.H.,“模型不正确时后验分布的限制行为”,《数理统计年鉴》,1966年,37(1),51-58。Brock,W.A.和L.J.Mirman,“最优经济增长和不确定性:贴现案例”,《经济理论杂志》,1972年,4(3),479–513。Bunke,O.和X.Milhaud,“可能不正确模型下Bayes估计的渐近行为”,《统计年鉴》,1998年,26(2),617-644。Burdett,K.和T.Vishwanath,“保留工资和学习的下降”,《经济研究回顾》,1988年,55(4),655-665。Dekel,E.,D.Fudenberg和D.K.Levine,“学习玩贝叶斯游戏”,游戏与经济行为,2004,46(2),282–303。Diaconis,P.和D.Freedman,“关于Bayes估计的一致性”,统计年鉴,1986年,第页。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:11:56
1–26.Doraszelski,U.和J.F.Escobar,“动态随机博弈中的正则马尔可夫完美均衡理论:泛型、稳定性和纯化”,理论经济学,2010年,5(3),369–402。《概率:理论与实例》,剑桥大学出版社,2010年。Easley,D.和N.M.Kiefer,“用未知参数控制随机过程”,计量经济学,1988年,第1045-1064页。Esponda,I.,“逆向选择经济中的行为均衡”,《美国经济评论》,2008年,98(4),1269-1291。D.Pouzo,《大型选举中的有条件回顾投票》,Forthcominin《美国经济杂志:微观经济学》,2012年。以及《伯克-纳什均衡:用错误模型为代理人建模的框架》,《计量经济学》,即将出版,2016年。Evans,G.W.和S.Honkapohja,《宏观经济学中的学习与期望》,普林斯顿大学出版社,2001年。Eyster,E.和M.Piccione,“在不完全和多样性认知下的资产定价方法”,计量经济学,2013,81(4),1483-1506。和M.拉宾,《诅咒的均衡》,计量经济学,2005年,73(5),1623-1672年。Fershtman,C.和A.Pakes,“信息不对称的动态博弈:实证研究框架”,《经济学季刊》,2012年,第qjs025页。Freedman,D.A.,《离散情形下Bayes估计的渐近行为》,《数理统计年鉴》,1963年,34(4),1386-1403年。《经济理论杂志》,1981年,24(2),296-309。Fudenberg,D.和D.Kreps,“学习混合均衡”,游戏和经济行为,1993年,5320-367。D.K.Levine,“自我确认均衡”,计量经济学,1993年,第523-545页。《游戏学习理论》,第二卷,麻省理工学院出版社,1998年。,G.Romanyuk和P.Strack,“有错误信念的积极学习”,工作文件,2016年。霍尔,右。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:00
E.,“宏观经济波动和时间分配”,1997年技术报告1。汉森,L.P.和T.J.萨金特,鲁棒性,普林斯顿大学公共关系,2008年。Harsanyi,J.C.,“随机干扰支付的博弈:形成固定策略均衡点的新理论基础”,《国际博弈论杂志》,1973,2(1),1-23。Heidhues,P.,B.Koszegi和P.Strack,“不切实际的期望和错误的学习”,工作文件,2016年。Hoffauer,J.和W.H.Sandholm,“关于随机效应的全球收敛”,计量经济学,2002,70(6),2265–2294。Jehiel,P.,“重复交替博弈中的有限期预测”,《经济理论杂志》,1995年,67(2),497–519。,“学会玩有限的预测均衡”,游戏与经济行为,1998年,22(2),274-298。,“基于类比的预期均衡”,《经济理论杂志》,2005年,123(2),81-104。D.Samet,“估值均衡”,理论经济学,2007年,2(2),163-185。和F.Koessler,“用基于类比的预期重新审视不完全信息的博弈”,博弈与经济行为,2008,62(2),533–557。Kagel,J.H.和D.Levin,“公共价值拍卖中的赢家诅咒和公共信息”,《美国经济评论》,1986年,第894-920页。Kirman,A.P.,“企业对需求状况的学习”,摘自R.H.Day和T。格罗夫斯主编,《适应性经济模型》,学术出版社1975年,第137-156页。Koulovatianos,C.,L.J.Mirman和M.Santugini,“最优增长和不确定性:学习”,《经济理论杂志》,2009年,144(1),280-295。McCall,J.J.,《信息经济学与求职》,经济学季刊,1970年,第页。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:05
113–126.McLennan,A.,“长期的价格分散和不完全学习”,《经济动态与控制杂志》,1984年,第7(3),331-347页。Nyarko,Y.,“在错误指定的模型中学习和周期的可能性”,经济理论杂志,1991年,55(2),416-427。Piccione,M.和A.Rubinstein,“对具有不同能力识别均衡模式的机构的经济互动进行建模”,《欧洲经济协会杂志》,2003年,1(1),212–223。波拉德博士,《测量理论概率的用户指南》,剑桥大学出版社,2001年。鲍威尔,W.B.,近似动态规划:解决维度的诅咒,第703卷,约翰·威利父子出版社,2007年。罗斯柴尔德,M.,“在价格分布未知的情况下寻找最低价格”,《政治经济学杂志》,1974年,82(4),689-711。,“市场定价的两臂强盗理论”,《经济理论杂志》,1974年,9(2),185-202。萨金特·T·J.《征服美国的通货膨胀》,普林斯顿大学出版社,1999年。塞尔滕,R.,“重新审视广泛博弈中均衡点的完备性概念”,《国际博弈论杂志》,1975年,4(1),25-55。Shalizi,C.R.,“依赖数据和错误模型的贝叶斯更新动力学”,电子统计杂志,2009年,3,1039–1074。Sobel,J.,“非线性价格和价格接受行为”,《经济行为与组织杂志》,1984年,5(3),387–396。斯皮格勒,R.,《安慰剂改革》,《美国经济评论》,2013年,第103(4)期,1490-1506页。,“贝叶斯网络和有界理性预期”,《经济学季刊》,即将出版,2016a。,“关于有限理性预期的“有限反馈”基础”,工作文件,2016b。附录引理2的证明。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:08
IQ(σ)是非空的:Mσ,qi是欧几里德空间(有限集Gr(Γ)上的一个凸紧子集上的线性(因此是连续的)自映射;所以,布劳尔定理意味着不动点的存在。IQ(σ)是凸值的:对于所有α∈ [0,1]和m,m∈ (Gr(Γ)),αMσ,Q[M]+(1)-α) Mσ,Q[M]=Mσ,Q[αM+(1)- α) m]。因此,如果m=mσ,Q[m]和m=mσ,Q[m],那么αm+(1- α) m=mσ,Q[αm+(1)- α) m]。IQ(σ)是上半连续且紧值的:固定任意序列(σn,mn)nin∑×(Gr(Γ))这样limn→∞(σn,mn)=(σ,m)并且∈ 由于Mσn,Q[mn]=mn,| | M- Mσ,Q[M]| |≤ ||M- mn | |+|Mσn,Q[mn- m] | |+|mσn,Q[m]- Mσ,Q[M]| |。RHS中的第一项因假设而消失。第二项满足度| | Mσn,Q[mn- m] ||≤ ||Mσn,Q | |×| | mn- m | |也消失了。对于第三项,注意σ7→ Mσ,Q[M]是线性映射,supσ| | Mσ,Q[M]| |≤maxs | P(s,x)∈Gr(Γ)Q(s|s,x)m(s,x)|<∞. 因此| | Mσn,Q[M]-Mσ,Q[M]| |≤ K×| |σn-σ| |对于某些K<∞ , 所以它也消失了。因此,m=mσ,Q[m];因此,IQ(·)有一个闭合图,所以IQ(σ)是一个闭合集。IQ(σ)的紧致性源于(Gr(Γ))。因此,IQ(·)是上半连续的(见Aliprantisand Border(2006),定理17.11)。引理3的证明依赖于下面的断言。本附录中权利要求A、B和C的证据见在线附录。索赔A.(i)对于任何常规SMDP,都存在θ*∈ Θ和K<∞ 这样的话,对我来说∈ (Gr(Γ)),KQ(m,θ)*) ≤ K.(ii)固定任何θ∈ Θ和一个序列(mn)nin(Gr(Γ))使得所有(s,s,x)的Qθ(s | s,x)>0∈ S×Gr(Γ)使得q(S | S,x)>0和limn→∞mn=m。然后是limn→∞KQ(mn,θ)=KQ(m,θ)。(iii)KQis(联合)下半连续:固定任何(mn)和(θn)n,使之成为limn→∞mn=mand limn→∞θn=θ。然后是lim infn→∞KQ(mn,θn)≥ KQ(m,θ)。引理3的证明。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:12
(i) 利用Jensen不等式和ln(·),KQ(m,θ)的严格凹性≥ -P(s,x)∈Gr(Γ)ln(EQ(·| s,x)[Qθ(s | s,x)Q(s | s,x)]m(s,x)=0,当且仅当所有(s,x)的Qθ(·| s,x)=Qθ(·| s,x),使得m(s,x)>0。(ii)ΘQ(m)是非空的:根据权利要求A(i),存在K<∞ 使得最小值在约束集中{θ∈ Θ:KQ(m,θ)≤ K} 。因为KQ(m,·)在紧集上是连续的,所以存在一个极小值。ΘQ(·)是uhc和紧值:固定任何(mn)和(θn)n,使之满足limn→∞mn=m,limn→∞θn=θ,θn∈ 对于所有n,我们建立θ∈ ΘQ(m)(所以Θ(·)有一个闭图,通过Θ的紧性,它是uhc)。假设,为了得到一个矛盾,θ/∈ ΘQ(m)。那么,根据权利要求A(i),存在^θ∈ ε>0,使得KQ(m,θ)≤ KQ(m,θ)- 3ε和KQ(m,^θ)<∞. 根据规则,limj存在(^θj)jj→∞^θj=^θ,对于所有j,Q^θj(s | s,x)>0对于所有(s,s,x)∈ S×X使得Q(S | S,X)>0。我们将证明序列中有一个元素,^θJ,比θngiven mn“做得更好”,这是一个矛盾。因为KQ(m,^θ)<∞, KQ(m,·)的连续性意味着存在足够大的J,使得KQ(m,^θJ)- KQ(m,^θ)≤ ε/2. 此外,对于矩阵a,| | a | |被理解为算子范数。应用于θ=^θ的A(ii)表示存在Nε,Jsuch,对于所有N≥ Nε,J,KQ(mn,^θJ)- KQ(m,^θJ)≤ ε/2. 因此,对于所有n≥ Nε,J,KQ(mn,^θJ)- KQ(m,^θ)≤KQ(mn,^θJ)- KQ(m,^θJ)+KQ(m,^θJ)- KQ(m,^θ)≤ ε,因此KQ(mn,^θJ)≤ KQ(m,^θ)+ε≤ KQ(m,θ)- 2ε. (15) 假设KQ(m,θ)<∞. 根据权利要求A(iii),存在nε≥ Nε,Jsuch thatKQ(mnε,θNε)≥ KQ(m,θ)-ε. 这个结果和(15)一起意味着KQ(mnε,^θJ)≤KQ(mnε,θnε)- ε. 但这与θnε相矛盾∈ ΘQ(mnε)。最后,如果KQ(m,θ)=∞,权利要求A(iii)暗示存在nε≥ Nε,j如KQ(mnε,θNε)≥ 2K,其中k是权利要求A(i)中定义的界限。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:16
但这也与θnε相矛盾∈ ΘQ(mnε)。因此,ΘQ(·)有一个闭图,因此ΘQ(m)是一个闭集。ΘQ(m)的紧性从Θ的紧性派生而来。因此,ΘQ(·)是上半连续的(见Aliprantis and Border(2006),定理17.11)。定理1的证明。设W=∑×(Gr(Γ))×(Θ)并赋予它乘积拓扑(由∑××的欧几里德拓扑给出)(Gr(Γ))和(Θ)). 显然,W6={}. 因为Θ很紧凑,(Θ)在弱拓扑下是紧的;∑和(Gr(Γ))也是紧凑的。因此,根据蒂乔诺·弗夫定理(见Aliprantis and Border(2006)),W在乘积拓扑下是紧的。W也是凸的。最后,W M×rca(Θ),其中M是| S |×|X |实值矩阵的空间,而rca(Θ)是具有弱拓扑的正则Borel符号测度的空间。空间M×rca(Θ)是局部凸的,有一个亚型{(σ,M,u)7族→ pf(σ,m,u)=| |(σ,m)| |+|'Ohmf(x)u(dx)|:f∈ C(Ohm)} (C)(Ohm) 是实值连续有界函数的空间和| |.| |被理解为光谱标准)。此外,我们还观察到(σ,m,u)=0对于所有的f(σ,m,u)=0∈ C(Ohm), thusM×rca(Θ)也是豪斯多夫。让T:W→ 2Wbe使得T(σ,m,u)=∑(`Qu)×IQ(σ)×(ΘQ(m))。注意如果(σ*, M*, u*) 是T的固定点,然后是m*这是一个伯克-纳什均衡。根据引理1,∑(·)是非空、凸值、紧值和上半连续的。因此,每∈ (Θ),∑(\'Qu)是非空的、凸值的和紧值的。此外,由于Qθ在θ中是连续的(通过正则性假设),那么‘Qu在u中是连续的(在弱拓扑下)。从第七题开始→ ∑(Q)是上半连续的,那么∑(`Qu)作为u的函数也是上半连续的。通过引理2,IQ(·)是非空的、凸值的、紧值的和上半连续的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:20
根据引理3和正则条件,对应关系ΘQ(·)是非空的、紧值的、上半连续的;因此,通信(ΘQ(·))是非空的,上半连续的(参见Aliprantis and Border(2006),定理17.13),紧致值的(参见Aliprantis and Border(2006),定理15.11),以及平凡的凸值的。因此,在乘积拓扑下,对应T是非空的、凸值的、紧值的(根据Tychono ff定理),以及上半连续的(参见Aliprantis and Border(2006),定理17.28);因此,它有一个闭合图(见Aliprantis and Border(2006),定理17.11)。由于W是局部Hausdorff空间的非空紧凸子集,因此根据Kakutani Fan-Glicksberg定理(见Aliprantis and Border(2006),推论17.55),T存在一个固定点。对于引理5的证明,我们依赖以下定义和主张。莱克*(m) =infθ∈KQ(m,θ)和let Θ是一个稠密集,对于所有θ∈^Θ,Qθ(s | s,x)>0表示所有(s,s,x)∈ S×Gr(Γ)使得Q(S | S,x)>0。这样一个集合^Θ的存在是基于正则性假设的。索赔B.假设限制→∞国民党- mk=0 a.s.-Pf。然后:(i)对于所有θ∈^Θ,limt→∞T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1) =X(s,X)∈Gr(Γ)EQ(·| s,x)hlogQ(s | s,x)Qθ(s | s,x)im(s,x)a.s.-Pf。(ii)对于Pf几乎所有h∞∈ H∞还有 > 0和α=(infΘ:dm(θ)≥KQ(m,θ)-K*(m) )/3,存在这样一种情况:尽管如此≥ T,T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)≥ K*(m) +α表示所有θ∈ {Θ:dm(θ)≥ }, 式中,dm(θ)=inf≈θ∈ΘQ(m)| |θ-~θ||.引理5的证明。必须表现出这种极限→∞Θdm(θ)ut(dθ)=0 a.s.-Pfover H.设K*(m)≡ KQ(m,ΘQ(m))。对于任何η>0,设η(m)={θ∈ Θ:dm(θ)<η},和^Θη(m)=∩ Θη(m)(集合^Θ在定义6的条件3中定义,即规则性)。我们现在证明u(η(m))>0。根据引理3,ΘQ(m)是非空的。根据^Θ的密度,^Θη(m)是非空的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:27
θ7的非空性与连续性→ Qθ,意味着存在一个非空的开集Uη(m)。通过全支持,u(η(m))>0。此外,注意任何 > 0,{Θ:dm(θ)≥ } 我很紧凑。这源于Θ的紧性和θ7的连续性→ dm(θ)(由引理3和极大值定理的一个应用给出)。{Θ:dm(θ)的紧性≥ } θ7的下半连续性→ KQ(m,θ)(见索赔人(iii))暗示infΘ:dm(θ)≥KQ(m,θ)=minΘ:dm(θ)≥KQ(m,θ)>K*(m) 。让α≡ (minΘ:dm(θ)≥KQ(m,θ)- K*(m) )/3>0。同样,让η>0被选择为kq(m,θ)≤ K*(m) 所有θ的+0.25α∈ η(m)(这样的η总是通过θ7的连续性存在→ KQ(m,θ))。设Hbe为H的子集,其中权利要求B中的陈述适用;注意pf(H\\H)=0。从今往后,fix h∞∈ H我们省略了h∞从记谱到减轻记谱负担。通过简单代数和dmis在Θ中有界这一事实,我们可以得出结论 > 0和某些特定的C>0,^Θdm(θ)ut(dθ)=Θdm(θ)Qθ(st | st-1,xt-1) ut-1(dθ)\'ΘQθ(st | st)-1,xt-1) ut-1(dθ)=Θdm(θ)Zt(θ)u(dθ)ΘZt(θ)u(dθ)≤  + C'{Θdm(θ)≥}Zt(θ)u(dθ)\'^Θη(m)Zt(θ)u(dθ)≡  + 猫()Bt(η)。式中Zt(θ)≡Qtτ=1Qθ(sτ| sτ-1,xτ-1) Q(sτ| sτ)-1,xτ-1) =expn-Ptτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)o、 因此,有必要表明Lim的支持→∞{exp{t(K)*(m) +0.5α)}At()} = 0(16)和lim inft→∞{exp{t(K)*(m) +0.5α)}Bt(η)}=∞. (17) 关于等式(16),我们首先表明→∞sup{Θ:dm(θ)≥}n(K)*(m) +0.5α)- T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1) o≤ 常数<0。为了证明这一点,请注意,根据权利要求B(ii),存在一个T,因此对于所有T≥ T,T-1Ptτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)≥ K*(m) +α,对于所有θ∈ {Θ:dm(θ)≥ }.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:31
因此,limt→∞sup{Θ:dm(θ)≥}nK*(m) +α- T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1) o≤ -α.因此,lim supt→∞{exp{t(K)*(m) +0.5α)}At()}≤ 林监督→∞sup{Θ:dm(θ)≥}出口(K)*(m) +0.5α)- T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)o=0。关于方程(17),通过Fatou引理和一些代数,可以证明Lim影响→∞exp{t(K)*(m) +0.5α)}Zt(θ)=∞ > 0(在θ上逐点)∈^Θη(m)),或等效地,lim inft→∞K*(m) +0.5α- T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)> 0.根据权利要求B(i),lim inft→∞K*(m) +0.5α- T-1tXτ=1logQ(sτ| sτ-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)= K*(m) +0.5α- KQ(m,θ)(θ上的点方向)∈η(m)。通过我们选择η,RHS大于0.25α,我们的预期结果如下。定理2的证明。对于任何人来说∈ S和u∈ (Θ),letx(s,u)≡ arg maxx∈Γ(s)E|Qu(·s,x)[π(s,x,s)]δ(s,u)≡ 貂皮∈Γ(s)\\x(s,u)nmax∈Γ(s)E|Qu(·s,x)[π(s,x,s)]- E\'Qu(·s,x)[π(s,x,s)]o^δ≡ 最大值分钟,微秒δ(s,微秒),0δ ≡ 最大值δ ≥ 0 |^δ - 2δ1 - δM≥ 0=^δ/M2+^δ/M,其中M≡ 麦克斯(s,x)∈Gr(Γ),s∈S |π(S,x,S)|。通过引理5,对于所有开集U ΘQ(m),limt→∞ut(U)=1 a.s.-Pfin H.也让gτ(H∞)(s,x)=1(s,x)(sτ,xτ)- Mστ(s,x | sτ)-1,xτ-1) 对于任意τ和(s,x)∈Gr(Γ)和h∞∈ H.序列(gτ)τ是一个鞅差,并通过与权利要求B中的证明类似的参数:limt→∞||T-1Ptτ=0gτ(h∞)|| = 上午0点-下午5点。让H*以H为背景,使所有H∞∈ H*以下内容适用:对于所有OpenSet U ΘQ(m),limt→∞ut(U)=1和极限→∞||T-1Ptτ=0gτ(h∞)|| = 0.注意pf(H\\H*) = 0.从今以后,fix和h∞∈ H*, 我们从符号中省略了它。我们首先确定∈ 智商(σ)。请注意- Mσ,Q[M]k≤ 公里- mtk+国民党- Mσ,Q[M]kwhere(s,x)7→ Mσ,Q[p](s,x)≡P~s,~x∈任意p的Gr(Γ)Mσ(s,x |s,~x)p(~s,~x)∈ (Gr(Γ))。通过稳定性,RHS中的第一项消失,因此有必要表明→∞||mt-Mσ,Q[M]| |=0。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:35
事实上limt→∞||T-1Ptτ=0gτ| |=0和三角形不等式impylimt→∞mt- Mσ,Q[M]≤ 极限→∞mt- T-1tXτ=1Mστ,Q(·,·| sτ)-1,xτ-1)+ 极限→∞T-1tXτ=1Mστ,Q(·,·| sτ)-1,xτ-1) - Mσ,Q[M]= 极限→∞T-1tXτ=1gτ+ 极限→∞T-1tXτ=1Mστ,Q(·,·| sτ)-1,xτ-1) - Mσ,Q[M]≤ 极限→∞T-1tXτ=1Mστ,Q(·,·| sτ)-1,xτ-1) - Mσ,QT-1tXτ=1(·,·)(sτ)-1,xτ-1)+ 极限→∞Mσ,QT-1tXτ=1(·,·)(sτ)-1,xτ-1)- Mσ,Q[M]. (18) 此外,通过定义Mσ,Q(见等式(4)),对于所有(s,x)∈ Gr(Γ),t-1tXτ=1Mστ,Q(s,x | sτ)-1,xτ-1) =Xs,~X∈Gr(Γ)Q(s |s,~x)t-1tXτ=1στ(x | s)1(~s,~x)(sτ)-1,xτ-1) (19)Mσ,QT-1tXτ=1(·,·)(sτ)-1,xτ-1)=X~s,~X∈Gr(Γ)Q(s |s,~x)t-1tXτ=1σ(x | s)1(~s,~x)(sτ)-1,xτ-1).(20) 方程(19)和(20)以及稳定性(σt→ σ) 意味着18岁时的第一项消失。由于算子Mσ[]的连续性,RHS中的第二项也在稳定性下消失事实上-1Ptτ=1(·,·)(sτ)-1,xτ-1) =t-1tmt-1(·, ·). 因此,km- Mσ,Q[M]k=0,所以M∈ IQ(σ)。因此,为了证明案例(i)和(ii),我们需要确定,对于每一个案例,都存在∈ (ΘQ(m))使得σ是MDP的最佳策略(\'Qu)。(i) 考虑任何δ∈ [0,δ]. 自从(Θ)在弱拓扑下是紧的,存在(ut)t的子序列,我们仍然将其表示为(ut)t,因此utw→ u∞和u∞∈ (ΘQ(m))。自σt∈对于所有t,∑(ut)和∑是uhc(见引理4),稳定性(σt→ σ) 意味着σ∈Σ(u∞). 我们的结论是,σ是MDP(\'Qu)的最佳策略∞). 如果δ=¨δ=0,则该断言无关紧要。如果δ≥ δ>0时,必须显示thatx(s,u∞) = arg maxx∈Γ(s)^s{π(s,x,s)+δW(s,B(s,x,s,u∞))}\'Qu∞(ds | s,x)=arg maxx∈Γ(s)^s{π(s,x,s)+δW(s,u)∞)}\'Qu∞(ds | s,x)。(21)我们通过建立(21)来结束。注意,由于δ>0,因此δ>0,这反过来意味着x(s,u∞) 她是单身汉。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:38
(21)中的第一个等式成立,因为通过定义δ,E Qu∞(·| s,x(s,u)∞))[π(s,x(s,u∞), S) ]- equ∞(·| s,x)[π(s,x,s)]≥^δ ≥ 2δM1- δ> 0代表所有x∈ Γ(s)\\{x(s,u)∞)}, 通过定义M,δM1- δ≥ Δ^SnW(s,B(s,x,s,u∞))\'Qu∞(ds | s,x)-W(s,B(s,x(s,u∞), s、 u∞))\'Qu∞(ds | s,x(s,u)∞))o、 (21)中的第二个等式也有类似的论点。(ii)通过穷举学习的稳定性,存在一个子序列(ut(j))Jsuch,即ut(j)w→ u*. 这个事实和事实,对于所有开放的美国 ΘQ(m),limt→∞ut(j)(U)=1,表示u*∈ (ΘQ(m))。自σt(j)∈所有j的∑(ut(j))和∑是uhc(见引理4),稳定性(σt→ σ) 意味着σ∈Σ(u*). 此外,在稳定性条件下,通过穷举学习(即*= B(s,x,s,u)*) 所有人(s,x)∈ Gr(Γ)和s∈supp(\'Qu)*(·| s,x))、W(s,u)*) = 马克斯∈Γ(s)`s{π(s,x,s)+δW(s,u)*)}\'Qu*(ds | s,x)对于所有s∈ 然后,通过值函数的唯一性,σ是EMMDP(`Qu)的最佳策略*). 命题2的证明依赖于以下主张。索赔C.如果(σ,m)∈ Σ × (S×X)是σ∈ ∑ε与m∈ IQ(m)在定义18中满足完全沟通条件,然后m(s,x)>0表示所有(s,x)∈ Gr(Γ)。命题2的证明。(i) 我们证明,如果(σ,m)对于ε-扰动、弱识别且满足完全通信(且具有先验μ和策略函数f)的BayesianSMDP是稳定的,那么(σ,m)对于穷举学习是稳定的。也就是说,我们必须找到一个子序列(ut(j))j,使得ut(j)弱收敛到u*和u*= B(s,x,s,u)*) 对于任何(s,x)∈ Gr(Γ)和s∈ supp(\'Qu)*(·| s,x))。通过压缩(Θ),始终存在一个极限点为u的收敛子序列*∈ (Θ). 引理5,5*∈ (ΘQ(m))。根据假设,σ∈ ∑ε,根据定理2证明中给出的参数,m∈ 智商(σ)。由于SMDP满足了充分的沟通,根据权利要求C,supp(m)=Gr(Γ)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:42
这个结果,这个事实*∈ (ΘQ(m)),弱识别意味着强识别,即支持u的任何θ和θ*, Qθ(·| s,x)=所有(s,x)的Qθ(·| s,x)∈ Gr(Γ)。因此,这就意味着 ΘBorel and for all(s,x)∈ Gr(Γ)和s∈ 这是什么*(s|s,x)>0(即,\'Qθ(s|s,x)u*(dθ)>0),B(s,x,s,u*)(A) =\'AQθ(s | s,x)u*(dθ)\'ΘQθ(s|s,x)u*(dθ)=u*(A) 。因此*满足所需条件。(ii)证明了如果(σ,m)是一个Berk-Nash均衡,那么它也是一个具有穷举学习的Berk-Nash均衡。让我们来支持平衡信念。根据权利要求C和弱识别,可以得出,对于所有(s,x)的μ,Qθ(·s,x)=Qθ(·s,x)支持的任何θ和θ,都有强识别∈ Gr(Γ)。因此,尽管如此 ΘBorel and for all(s,x)∈ Gr(Γ)和s∈ S使得\'Qu(S|S,x)>0(即,\'Qθ(S|S,x)u(dθ)>0),B(S,x,S,u)(A)=\'AQθ(S|S,x)u(dθ)\'Qθ(S|S,x)u(dθ)=u(A)。因此,(σ,m)是一个具有穷举学习的Berk-Nash均衡。命题3的证明。假设(σ,m)是一个完美的Berk-Nash平衡,且(σε,mε,με)ε是与穷尽学习相关的平衡序列,使得limε→0(σε,mε)=(σ,m)。通过可能的子序列,让u=limε→0με(弱拓扑下)。通过平衡响应T(σ,m,u)=∑(\'Qu)×IQ(σ)×的上半连续性(ΘQ(m))(见定理1的证明),(σ,m)是一个具有支持信念u的Berk-Nash均衡。我们的结论是,(σ,m)是一个具有穷举学习的Berk-Nash均衡。所有人(s,x)∈ Gr(Γ)和s∈ 晚餐\'Qu(·s,x), 对于所有的f:Θ→ 资金充足且持续不断,\'f(θ)u(dθ)-\'f(θ)B(s,x,s,u)(dθ)≤\'f(θ)u(dθ)-\'f(θ)με(dθ)+\'f(θ)με(dθ)-\'f(θ)B(s,x,s,u)(dθ). RHSvanishes中的第一项为ε→ 弱收敛定义为0。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:47
对于第二项,请注意,对于足够小的ε∈ 晚餐Q|ε(·s,x), 所以,由于με=B(s,x,s,με)对于任何(s,x)∈ Gr(Γ)和s∈ 晚餐Q|ε(·s,x), 我们可以用'f(θ)B(s,x,s,ε)(dθ)代替'f(θ)με(dθ)。因此,第二项因贝叶斯算子的连续性而消失。因此,根据标准参数,对于所有a,u(a)=B(s,x,s,u)(a) ΘBorel和all(s,x)∈ Gr(Γ)和s∈ 晚餐\'Qu(·s,x), 这意味着(σ,m)是具有穷举学习的aBerk-Nash均衡。定理3的证明。ε-扰动环境(σε,mε)的Berk-Nash平衡点的存在性适用于所有ε∈ (0,ε),其中ε=1/(|X |+1),来自用于证明ε=0情况存在的相同等式(见定理1)。弱识别、充分沟通和命题2(ii)意味着存在一个(σε,mε)ε>0的穷举学习伯克-纳什均衡序列。通过∑××的紧性(Gr(Γ)),存在一个收敛子序列,定义为一个完美的Berk-Nash均衡。假设μ,μin(Θ)是这样的\'f(θ)u(dθ)-\'f(θ)u(dθ)= 0表示任何f有界且连续。那么,对于任何F Θ闭合,u(F)-u(F)≤ Eu[fF(θ)]-u(F)=Eu[fF(θ)]-u(F),其中FFI是任何连续且有界的,且≥ 1{F};我们称这类函数为CF。因此,u(F)- u(F)≤ inff∈CFEu[f(θ)]- u(F)=0,其中等式源自单调收敛定理的应用。一个类似的技巧产生了反向不等式,因此,对于任何F,u(F)=u(F) Θ关闭。Θ上的Borel测度是内正则的(也称为astight;参见Aliprantis and Border(2006),第12章,定理12.7)。因此,对于任何Borel来说 Θ和任何 > 0,存在一个F 使μi(A\\F)小于 总的来说,i=1,2。因此u(A)- u(A)≤ u(A)- u(F)≤ u(F)- u(F)+. 根据我们之前的结果,可以得出u(A)- u(A)≤ .
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:50
类似的伎俩产生了相反的不平等,而且 是任意的,这意味着对于所有A ΘBorel。引理1和4的在线附录证明。这些引理的证明是标准的。我们只证明引理1;引理4的证明是类似的。引理1的证明。(i) 让TQ:L∞(S)→ L∞(S) 做行李员接线员,TQ[W](S)=max^x∈Γ(s)`s{π(s,^x,s)+δW(s)}Q(ds|s,^x)。根据标准参数,TQ是模δ的收缩,因此存在唯一的固定点VQ∈ L∞(S) 。为了在Q中建立连续性,让VQnbe为给定Qnsuch的一系列固定点,并让VQn为给定Q的固定点。然后| | VQn- VQ | | L∞≤ ||TQn[VQn]- TQn[VQ]| | L∞+ ||TQn[VQ]- TQ[VQ]| | L∞≤ δ| | VQn- VQ | | L∞+ ||TQn[VQ]- TQ[VQ]| | L∞既然δ∈ [0,1],只剩下证明| | TQn[VQ]- TQ[VQ]| | L∞→ 0.注意,对于任何∈ S、 TQn[VQ](S)- TQ[VQ](s)≤^S(π(S,^xn,S)+δVQ(S)){Qn(ds | S,^xn)- Q(ds | s,^xn)}其中^xn∈ arg max\'S{π(S,^x,S)+δVQ(S)}Qn(ds | S,^x)。因为VQandπ是inL∞(S) 和| S |∞, 因此,TQn[VQ](s)- TQ[VQ](s)≤ C | | Qn- Q | |对于某些有限常数C。使用类似的参数,可以证明TQ[VQ](s)-TQn[VQ](s)≤C | | Qn- Q | |。因此,| | TQn[VQ]- TQ[VQ]| | L∞≤ C | | Qn- Q | | |预期结果如下,因为| | Qn- Q | |→ 0.(ii)对于每个s∈ S和Q∈ (S) Gr(Γ),让Xs(Q)≡ arg max^x∈Γ(s)Us(^x,Q),其中Us(^x,Q)=`s{π(s,^x,s)+δVQ(s)}Q(ds | s,^x)。注意,∑(Q)={σ∈ Σ : s∈ S、 σ(·S)∈ (Xs(Q))}与×s同构∈s(Xs(Q)),在σ∈ ∑(Q)i ffσ(·s)。。。。,σ(·| s | s |)∈ ×s∈s(Xs(Q))。在第(i)部分中,Usis是连续的,因此极大值定理意味着Xs(Q)在Q中是非空的、紧值的和上半连续的→ (Xs(Q))对于每个s也是非空、紧值和上半连续的∈ 根据泰科诺·弗夫定理,x也是∈s(Xs(Q)),因此∑(Q)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:54
最后,为了建立∑(Q)的凸性,让∑,σ∈ ∑(Q),α∈(0,1)和σα=ασ+(1)- α)σ. 那么,不管怎样∈ S、 suppσα(·S)=suppσ(·S)∪ 供应σ(·s) Xs(Q),所以σα∈ ∑(Q)。索赔A、B和C的证明。对于权利要求A和B的证明,设Z=S×Gr(Γ)。对于每个z=(s,s,x)∈ Z和m∈ (Gr(Γ)),定义Pm(z)=Q(s|s,x)m(s,x)。我们有时滥用符号,写Q(z)≡ Q(s | s,x),对于Qθ也是如此。权利要求A的证明。(i)通过Z的正则性和完整性,存在θ*∈ Θ和α∈ (0,1)使得Qθ*(z)≥ α代表所有z∈ 使得Q(Z)>0。因此,对所有人来说∈ (Gr(Γ)),KQ(m,θ)*) ≤ -E’Pm[ln Qθ*(Z) ]≤ - lnα。(ii)KQ(mn,θ)- KQ(m,θ)=Pz:Q(z)>0(`Pmn(z)-下午(z)时(ln Q(z)- lnqθ(z))。假设所有z的Qθ(z)>0,使得Q(z)>0,(lnq(z)- lnqθ(z))对所有z有界,使得Q(z)>0。此外,Pmn(z)-对于所有z,Pm(z)收敛到零∈ Z是由于‘P·的线性和mnto m的收敛(iii)Ki(σn,θin)-K(σ,θi)=Pz:Q(z)>0(`Pmn(z)-\'Pm(z)ln Q(z)+Pz:Q(z)>0(\'Pm(z)ln Qθ(z)-\'Pmn(z)ln Qθn(z))。RHS中的第一项收敛到零(与Laim A(ii)中的参数相同)。证明的结论是,对于所有z,lim infn→∞-\'Pmn(z)ln Qθn(z)≥ -\'Pm(z)ln Qθ(z)。(22)假设lim infn→∞-\'Pmn(z)ln Qθn(z)≤ M<∞ (如果不是,(22)则无关紧要)。然后是(i)Pmn(z)→“\'Pm(z)>0,在这种情况下,(22)通过Qθ(z)在θ中的连续性保持相等,或(ii)\'Pmn(z)→\'Pm(z)=0,在这种情况下(22)保持不变,因为它的RHSI为零(按照惯例,0 ln 0=0),其LHS总是非负的。索赔证明B.(i)针对任何z∈ Z和任何h∞∈ H、 让我们来看看freqt(H)∞)(z)≡T-1吨-1τ=0{z}(zτ)。注意,t-1Ptτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)= κ1t(h∞) + κ-κ3t(h∞, θ) ,其中κ1t(h∞) =Pz∈Z频率(h)∞)(z)-下午(z)ln Q(z),κ=Pz∈Z:Q(Z)>0μPm(Z)lnq(Z)和κ3t(h)∞, θ) =Pz∈Zfreqt(h)∞)(z) lnqθ(z)。我们首先展示了limt→∞κ1t(h∞) = 上午0点-下午5点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:12:57
为此,让gt(h∞, z)≡{z} (zτ)-下午(z)lnq(z),并观察到(gt(·,z))是一个鞅差序列。让Ht表示部分历史,直到时间t和Lt(h∞, z) =Ptτ=1τ-1gτ(h)∞, z) );请注意,EPf(·ht)Lt+1(h)∞, z)= Lt(h)∞, z) 所以(Lt(·,z))是关于Pf的鞅。此外,EPf(·ht)[gt(h∞, z) |]≤ (ln Q(z))Q(z),其边界为1;这个结果,迭代期望定律和(gt(·,z))不相关的事实,意味着suptEPf[|Lt(h∞, z) |]≤ M代表M<∞. 因此,根据马尔廷格尔收敛定理(见Durrett(2010)中的定理5.2.8)Lt(h∞, z) 将a.s.-PFL聚合为一个有限的∞(h)∞, z) 。Kronecker引理(Pollard(2001),第105页),limt→∞T-1Ptτ=1gτ(h∞, z) =0 a.s.-Pf,适用于所有(均匀)z∈ Z.因此,limt→∞κ1t(h∞) = 上午0点-下午5点。我们还注意到,类似的论点表明→∞频率(h)∞, z) =Pm(z)a.s.-Pf,适用于所有(一致)z∈ Z.自θ∈^Θ,z 7→ - log(Qθ(z))是有界的。因此,通过类似的论据,我们可以证明→∞κ1t(h∞) = 0 a.s.-Pf,因此,对于任何θ∈^Θ,limt→∞κ3t(h∞, θ) =Pz∈Z′Pm(Z)ln Qθ(Z)a.s.-Pf。这个结果和Limt→∞κ1t(h∞) = 0 a.s.-Pf,暗示limt→∞T-1Ptτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)=Pz∈Z-Pm(Z)日志Q(z)Qθ(z)=P(s,x)∈Gr(Γ)EQ(·s,x)hlogQ(S | S,x)Qθ(S | S,x)任意θ的im(s,x)∈^Θa.s.-Pf,根据需要。(ii)对于任何ξ>0,定义Θm,ξ为θ∈ Θm,ξ当且仅当ifQθ(z)≥ ξ对于所有z,使得`Pm(z)>0。对于任何ζ>0,设ζξ=-α/(#Z4 lnξ)>0。因为limt→∞频率(h)∞, z) =Pm(z)a.s.-Pf,适用于所有(一致)z∈ Z^tζξ使得,T≥^tζξ,κ3t(h∞, θ) ≤X{z:\'Pm(z)>0}frekt(h)∞)(z) lnqθ(z)≤X{zi:\'Pm(z)>0}下午(z)- ζξlnqθ(z)≤X(s,X)∈Gr(Γ)EQ(·s,x)[lnqθ(s | s,x)]m(s,x)- #Zζξlnξ,a.s.-Pfandθ ∈ Θm,ξ(自Qθ(z)≥ ξ z,使得`Pm(z)>0)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:13:02
在上面的表达式中,α/4=-#Zζξlnξ,以及-1Ptτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)=这个引理意味着对于一个序列(`t)tifPτ`τ<∞, 然后,τ=1bτbt′τ→ 0,其中(bt)是一个非减量正实值序列,它发散到∞. 我们可以用\'t\'应用引理≡ T-1tand bt=t.κ1t(h∞) + κ- κ3t(h∞, θ) 暗示T≥^tζξ,t-1tXτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)≥X(s,X)∈Gr(Γ)EQ(·s,x)lnQ(S | S,x)Qθ(S | S,x)m(s,x)-α=KQ(m,θ)-α、 (23)a.s.-Pfandθ ∈ Θm,ξ。对于任何θ∈ {Θ:dm(θ)≥ }∩Θm,ξ,RHS在K以下有界*(m) +3α-α>K*(m) +α。此外,由于limt→∞频率(h)∞, z) =Pm(z)a.s.-Pf(均匀分布在z上)∈ Z) 对于任何θ,都存在一个T/∈ Θm,ξ,κ3t(h∞, θ) ≤ 频率(z)ln Qθ(z)≤(pL/2)对于所有t≥ T(ξ)和一些z∈ 其中pL=minZ{Pm(Z):\'Pm(Z)>0}。因此,对于任何θ/∈ Θm,ξ和a.s.-Pf:t-1tXτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)≥Xz∈Z:Q(Z)>0μPm(Z)ln Q(Z)- (pL/2)lnξ(24)对于所有t≥ T(ξ)。注意这一点∈Z:Q(Z)>0μPm(Z)ln Q(Z)和K*(m) 是有界的,因此存在一个ξ(α),使得RHS可以大于K*(m) +α。因此,通过显示23和24,可以得出以下结论:对于任何t≥ T≡ max{tζξ(α),t(ξ(α))}和a.s.-Pft-1tXτ=1logQ(sτ| sτ)-1,xτ-1) Qθ(sτ| sτ)-1,xτ-1)≥ K*(m) +α表示所有θ∈ {Θ:dm(θ)≥ }, 如你所愿。索赔证明C.我们首先表明,对于任何(s,x)∈ Gr(Γ)和(s,x)∈Gr(Γ),存在一个n,使得Mnσ,Q(s,x | s,x)>0,其中Mnσ,Q=Mσ,Q··Mσ,Q。根据定义18中的条件,存在一个n和一条“路径”(s,x)。。。,(sn,xn))使得(si,xi)∈ Gr(Γ)对于所有i=1。。。,n和Q(s | sn,xn)Q(sn | sn)-1,xn-1) 。。。Q(s | s,x)>0。表达式Mσ,Q·Mσ,qi定义为S×X上的转移概率函数,其中Mσ,Q·Mσ,Q(S,X | S,X)≡P(a,b)M(s,x | a,b)M(a,b | s,x)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:13:05
表达式Mσ,Q··Mσ,由前一个表达式的连续迭代构造。这个不等式和σ(x | s)≥ ε表示所有(s,x)∈ Gr(Γ),意味着mnσ,Q(s,x | s,x)=x((s,x),。。。,(sn,xn)σ(x | s)Q(s | sn,xn)。。。σ(x | s)Q(s | s,x)≥ εn+1X((s,x),。。。,(sn,xn)Q(s | sn,xn)。。。Q(s | s,x)>0,根据需要。考虑任何不变分布m。至少存在一个点(s,x)∈Gr(Γ)使得m(s,x)>0。对于任何(s,x)∈ Gr(Γ),设n为确保Mnσ,Q(s,x | s,x)>0的整数。然后,m(s,x)=P(s,x)∈Gr(Γ)Mnσ,Q(s,x | s,x)m(s,x)≥ Mnσ,Q(s,x | s,x)m(s,x)>0。因此,supp(m)=Gr(Γ)。计算ΘQ(·)和searchexampleClaim D中的平稳分布。(i)设σ是一个以阈值w为特征的策略*. 然后在X,mX(·;w)上有一个唯一的平稳边际分布*), 它由mx(0;w)给出*) =E[γ]- (1 - F(w)*))E[λγ](1)- F(w)*)) {E[λ]- E[λγ]}+E[γ]。(ii)对于任何m∈ (Gr(Γ))与边际mX∈ (十) ,ΘQ(m)是一个单态givenbyθQ(m)=mX(0)mX(0)+mX(1)(E[γ])λ+1.-mX(0)mX(0)+mX(1)’γ\'λ+Cov(γ,λ)\'γ.索赔证明D.(i)针对任何m∈ (Gr(Γ)),z,x和A S Borel,letm(z,A,x)=^S^xσ(x|w)Q(z,A|w,x)m(w,x)dwdx,其中{z},A,xis只是集合{z}×A×{x}和\'Q(z,A|w,x)的符号≡Pr(A | z,w,x)G(z),带Pr(w)∈ A | z,w,0)=(\'AF(dw)w/prob。λ(z)1{0∈ A} w/prob。(1 - λ(z)),和pr(w∈ A | z,w,1)=\'AF(dw)w/pr.λ(z)1{0∈ A} w/pr.(1)- λ(z))w/pr.γ(z)1{w∈ A} w/pr.1- γ(z)。σ(1 | w)=1{w>w*}. 因此,对于x=1m(z,S,1;w*) = m(z,{w>w)*}, 1.W*)对于x=0,情况也类似。因此,mX(1;w*) =\'Zm(dz,{w>w*}, 1.W*) 和mX(0;w)*) =`Zm(dz,{w<w*}, 0; W*) (w=w)*发生概率为零,因此可以忽略)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-7 18:13:08
因此,mx(1;w*) =^Z^S^Xσ(X|w)`Q(dz,{w>w*}|w、 x)m(w,x;w*)dwdx=^Z^S^XPr({w>w*}|z、 w,x)G(dz)m(w,x;w)*)dwdx=^Z^SPr({w>w*}|z、 0)G(dz)m(w,0;w*)dw+Z^SPr({w>w*}|z、 w,1)G(dz)m(w,1;w*)dw=^Zλ(Z)G(dz)(1)- F(w)*))mX(0;w)*) +^Zγ(Z)λ(Z)(1)- F(w)*))G(dz)mX(1;w)*)+^Z(1)- γ(z))G(dz)^S1{w>w*}m(dw,1;w)*).其中最后一行是从1{w>w*}1{w=0}=0始终。观察`W1{w>w*}m(dw,1;w)*) = m({w>w)*}, 1.W*) = mX(1;w)*) 根据我们之前的观察。ThusmX(1;w)*) = E[λ](1)-F(w)*))mX(0;w)*)+{E[λγ](1)- F(w)*)) + (1 - E[γ]}mX(1;w*).求解mX(1;w)*), 我们得到了mx(1;w)*) =E[λ](1)- F(w)*))(1 - F(w)*)) {E[λ]- E[λγ]}+E[γ]。结果表明,mX(0;w*) = 1.- mX(1;w)*).(ii)对于x=1,等式(·w,1)自然对数Q(W | W,1)Qθ(W | W,1)=Xz∈Zγ(Z)λ(z)^log(θ)F(dw)+(1)- λ(z))对数(1)- θ)G(z)+Xz∈Z(1)- γ(z){log(1)}G(z)=E[λγ]log(θ)+(E[γ]- E[λγ]对数(1)- θ) +常数。类似地,对于x=0,等式(·w,0)自然对数Q(W | s,0)Qθ(W | s,0)= E[λ]对数(θ)+(1)- E[λ])对数(1)- θ) +Const,其中Const和Const是不依赖于θ的常数。很容易看出,在[0,1]上,这些都是θ的严格凸函数,所以也有一个凸组合。因此,ΘQ(m)是任意m的单态,我们将其表示为θQ(m)。第一阶条件产生θ{E[λγ]mX(1)+E[λ]mX(0)}=1- θ{(E[γ]- E[λγ])mX(1)+(1)- E[λ])mX(0)}。因此θQ(m)=E[λγ]mX(1)+βλmX(0)\'-γmX(1)+mX(0)。期望的结果来自一些代数和协方差的标准表达式。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群