全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-5-31 03:44:02
在聚合学习模型中,给定发送者一生中遇到的响应序列取决于随机匹配过程的实现,因为不同的接收者有不同的历史,对给定信号的响应也不同。我们可以使用一种称为“预编程响应路径”的设备,对所有可能的随机匹配实现序列进行索引。为了表明更兼容的类型更频繁地播放给定信号,必须显示这种比较在每个预编程响应路径上都有效,从而耦合θ和θ类型的学习过程。我们将展示上述直觉延伸到具有任意数量信号的信号游戏和任何预先编程的响应路径。这源于Bellman(1956)关于Bernoulli bandits的定理2。定义5。预编程响应路径A=(a1,s,a2,s,…)s∈Sis以×s为单位的元素∈S(A)∞).预编程响应路径是接收器动作的有限序列的| S |元组,每个信号一个序列。对于给定的预编程响应路径a,我们可以想象以一种新的类型θ开始,并以以下编程方式生成每个周期的接收器播放:当发送方播放第j次s时,用接收器动作aj,s进行响应。(如果发送方发送五次,然后发送s6=s,她得到的响应是sis a1,s,而不是a6,s。)对于每个周期应用σθ的类型θ,a归纳了实验和响应的确定历史,我们表示yθ(a)。诱导历史yθ(a)可用于计算R[a](·|θ),即预编程响应路径a诱导的θ类型在整个生命周期内的信号分布。也就是说,R[a](·|θ)只是沿历史yθ(a)发送的所有信号的混合,权重为(1-γ) γt-1转向周期t内的信号。现在考虑一种θ型面向动作,该动作由每个周期的接收器行为策略π产生i.i.d.,如Rin备注2的解释所示。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:05
这个数据生成过程相当于根据合适的分布在时间0绘制随机预编程响应路径a,然后使用a生成所有接收器动作。也就是说,R[π](·|θ)=RR[a](·|θ)dπ(a),其中我们滥用符号并使用dπ(a)表示与π相关的预编程响应路径上的分布。重要的是,任何两种类型的θ和θ都面临着相同的分布覆盖编程响应路径,因此为了证明它所支持的命题,可以显示R[a](s |θ)≥R[a](s |θ)表示所有a.证明。对于t≥ 0,写入ytθ,将有限历史yθ截断为第一个t周期,y∞θ: =yθ。给定θ类型的有限或有限历史ytθ,信号计数函数#(s | ytθ)返回信号s在ytθ中出现的次数。(我们需要此计数功能,因为预编程响应路径生成的接收器播放每个周期取决于到目前为止每个信号发送的次数。)如上所述,我们只需要显示R[a](s |θ)≥ R[a](s |θ)。设a,并在θ型在诱导历史yθ(a)中第j次发送信号的周期内写入θjf。如果不存在此类周期,则设置Tθj=∞. 由于R[a](·|θ)是信号inyθ(a)上的加权平均值,随后的信号的权重减小,为了证明R[a](s |θ)≥ R[a](s |θ)它可以表示Tθj≤ Tθj对于每个j。为了实现这一目标,我们将通过归纳法证明一系列陈述:陈述j:提供Tθjis定义,#s | yTθjθ(a)!≤ #s | yTθjθ(a)!对于所有s6=s。对于每个j,其中Tθj<∞, 语句j意味着在第j次发送sfo之前发送每个信号s6=sb的θ类型周期数小于执行相同操作所花费的周期数θ。因此,可以得出θ比θ更快地发送到第j次,即Tθj≤ Tθj。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:08
最后,如果Tθj=∞, 那么显然Tθj≤ ∞ = 现在仍然需要通过归纳法来证明语句序列。语句1是基本情况。通过矛盾的方式,假设Tθ<∞ 和#s | yTθθ(a)!>#s | yTθθ(a)!对于一些s6=s,则有一些最早的周期t*< Tθ,其中#s | yt*θ(a)> #s | yTθθ(a)!,其中θ型在sin周期t中起作用*, σθ(yt*-1θ(a))=s。但根据施工,在周期t结束时*- 1θ型在Tθ周期内发送的次数实际上与θ型在Tθ周期内发送的次数相同- 1,以便#s | yt*-1θ(a)= #s | yTθ-1θ(a)!。此外,这两种类型都没有发送syet,所以#s | yt*-1θ(a)= #s | yTθ-1θ(a)!。因此,θ型在接收器对信号和周期t的反应上保持相同的后验值*- 1就像θ型在周期Tθ时所做的那样- 1、索比定理1,s∈ arg max^s∈SIθ,^s,yTθ-1θ(a)==> I(θ,s,yt*-1θ(a))>I(θ,s,yt*-1θ(a))。(4) 然而,通过Tθ的构造,我们得到了σθyTθ-1θ(a)!=s、 通过Gittins指数政策的最优性,方程(4)的左侧得到满足。但是,同样通过Gittins指数政策的最优性,方程(4)的右侧与σθ(yt)相矛盾*-1θ(a))=s。因此,我们已经证明了陈述1。现在假设语句j对所有j都成立≤ K、 我们证明了语句K+1也成立。如果θK+1是有限的,那么TθKis也是有限的。归纳假设显示了#s | yTθKθ(a)!≤ #s | yTθKθ(a)!在下面的等式和证明中的其他地方,我们滥用符号,将I(θ,s,y)写入平均I(θ,s,g(·| y),Δγ),这是通过更新之前的gusing历史y获得的信号s在后面的θ型Gittins指数,具有有效的贴现因子Δγ。对于每个s6=s。假设有一些s6=s,其#s | yTθK+1θ(a)!>#s | yTθK+1θ(a)!。与前面的不等式一起,这意味着在第K次玩SFO和第(K+1)次玩SFO之间的某个时间,为“#s | yTθK+1θ(a)!+1#-次玩θ。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:11
也就是说,如果我们推杆*:= min(t:#(s | ytθ(a))>#s | ytθK+1θ(a)!),然后TθK<T*< TθK+1。通过建造t*,#s | yt*-1θ(a)= #s | yTθK+1-1θ(a)!,还有#s | yt*-1θ(a)= K=#s | yTθK+1-1θ(a)!。因此,θ型在接收器对信号和周期t的反应上保持相同的后验值*- 1,就像θ型在周期TθK+1时所做的那样- 与基本情况一样,我们可以调用定理1来证明θ不可能扮演sin周期t*θ起正弦周期TθK+1的作用。这表明,通过归纳,语句j对每个j都是真的。4.3总接收方响应我们现在转向接收方的问题。每一个新的接收者都认为自己面临着一个固定但未知的格雷格盖特发送者行为策略π,其常规的前g给出了对π的信念。为了最大限度地发挥其预期效用,接收者必须学会利用个人经验从信号中推断发送者的类型。与发送方的最优策略可能涉及实验不同,接收方的问题只涉及被动学习。由于接受者在一场比赛中观察到相同的信息,无论他的行动如何,最优策略σ(y)只是最好地响应了历史y定义6得出的后验信念。接收机f的单周期前向映射:(Y) ×π→ (Y) isf[ψ,π](Y,(θ,s)):=ψ(Y)·γ·λ(θ)·π(s |θ)和f() := 1.- γ。与发送方的单周期正向映射fθ一样,如果今天接收方总体中的历史分布为ψ,且发送方总体的总间隙为π,则f[ψ,π]描述了明天接收方历史上的新分布。我们写ψπ:=limT→∞fT(ψ,π),由π处的发送者种群的作用所导致的Yin上的长期分布,这与初始状态ψ的特定选择无关。定义7。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:14
接收器总响应R∏→ πisR[π](a | s):=ψπ(y:σ(y)(s)=a),其中ψπ:=limT→∞ψ为任意接收态的fT(ψ,π)。我们感兴趣的是R[π]对π(s |θ)形式的不等式的响应程度≥π(s |θ)嵌入在π中,例如θsθ(引理2)。为此,对于任何两种类型的θ,我们定义了Pθ。θ是指θ与θ的比值比超过其前一比值比的信念,即isPθ。θ: =(p∈ (Θ):p(θ)p(θ)≤λ(θ)λ(θ))。(5) Ifπ(s |θ)≥ π(s |θ),π(s |θ)>0,并且接收者知道π,那么接收者在观察集合Pθ中的sfalls后对Sender类型的后验信念。θ。下一个引理表明,在π(s |θ)足够大且接收器寿命足够长的附加规定下,R[π]对Pθ的响应最好。当sis发送时,θ的概率很高。对于P (Θ),我们让br(P,s):=Sp∈最大功率∈Au(p,s,a)!;这是一组对s的最佳反应,得到了P.引理3中某些信念的支持。固定正则先验g、类型θ、θ和信号sbe。对于每个 > 0,存在c>0和γ<1,因此对于任何0≤ δ<1,γ≤ γ<1,n≥ 1,如果π(s |θ)≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,thenR[π](BR(Pθ.θ,s)| s)≥ 1.-n- .这个引理给出了R[π]最好响应Pθ的概率的下界。θaftersignal s。请注意,该界仅适用于生存概率γ,其接近于1,因为当接收器的寿命较短时,他们不需要获得足够的数据来超过其优先级。还请注意,当π(s |θ)比(1)大时,更多的接收机了解兼容性条件- γ) 几乎所有的都在n的极限范围内 ∞.引理3的证明依赖于Fudenberg、He和Imhof(2017)关于在罕见事件之后更新贝叶斯后验概率的定理2,其中罕见事件对应于观测θplay s。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:17
详情见附录A.3。我们在这里滥用了符号,把u(p,s,a)写成pθ∈Θu(θ,s,a)·p(θ)。解释条件π(s |θ)≥ (1)- γ) nC,回想一下,具有生存机会γ的代理的典型寿命为1-γ。如果π描述发送方群体中的聚合作用,那么θ型平均作用为sfor1-γ·π(s |θ)周期。所以当一个典型的θ型在nC周期内起稳定作用时,这个引理提供了1的界-n-  关于BR(Pθ.θ,s)中的接收者反应份额。注意,假设θ对nC周期起作用并不要求π(s |θ)作为γ远离0→ 1、为了预览,下一节中的引理4将确定,对于给定类型,非弱平衡支配的信号被有效地播放。通常,当δ和γ都接近1.5稳态时,引理3会对聚合播放产生影响。第4节分别研究了发送方和接收方的学习问题。在本节中,我们将转向双边学习问题。我们将首先确定稳态策略,即信号游戏策略π*其中π*和π*是相互的聚合响应,然后使用我们以前的结果描述稳态。5.1稳态、δ-稳定性和患者稳定性我们介绍了一个周期的前向映射fθ和fin第4节,它通过学习动力学和生灭过程描述了状态ψt这个周期到状态ψt+1下一个周期之间的确定性过渡。更精确地说,ψt+1θ=fθ(ψtθ,σ(ψt))和ψt+1=f(ψt,(σθ(ψtθ))θ∈Θ)。稳态是一个固定点ψ*此过渡贴图的。定义8。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:20
A状态ψ*是稳态,如果ψ*θ=fθ(ψ*θ、 σ(ψ)*)) 对于每个θ和ψ*= f(ψ)*, (σθ(ψ)*θ) )θ∈Θ)。正则先验g和0的所有稳态集≤ δ、 γ<1表示ψ*(g,δ,γ),而稳态策略文件集为∏*(g,δ,γ):={σ(ψ)*) : ψ*∈ ψ*(g,δ,γ)}。与稳态相关的策略文件代表了游戏的时不变分布,因为每个时期代理死亡时丢失的信息正好平衡了代理通过学习该时期获得的信息。这意味着学习者的可交换性假设将在任何稳态下得到满足。我们现在给出一个等价的刻划∏*(g,δ,γ)根据Rand R。证明见附录A.4。提案2。π*∈ ∏*(g,δ,γ)当且仅当Rg,δ,γ(π*) = π*和Rg,δ,γ(π*) = π*.(注意,这里我们明确了Rand-Ron参数(g,δ,γ)的依赖关系,以避免混淆。)也就是说,稳态策略文件是一对相互聚合的回复。下一个命题保证始终存在至少一个稳态战略文件。提案3。∏*(g,δ,γ)在范数拓扑中是非空且紧的。证据见在线附录。我们确定ψ*(g,δ,γ)在分布空间上是非空且紧的`范数,这立即暗示了∏的相同性质*(g,δ,γ)。直观地说,如果生命周期是有限的,那么历史集是有限的,所以状态集是有限维的。这里的单周期正演图f=((fθ)θ∈Θ,f)是连续的,因此布劳尔不动点定理的usualversion适用。对于几何寿命,非常旧的代理很少,因此在某个较大的T处截断代理的寿命可以得到一个很好的近似值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:23
与直接使用这些近似不同,我们的证明表明,在范数f下是连续的,并且(由于几何寿命),可行状态形成了一个紧凑的局部凸hausdorff空间。这让我们可以求助于该领域的不动点定理。我们现在关注迭代limitlimδ→1limγ→1∏*(g,δ,γ),即δ和γ接近1的稳态策略文件集,其中我们首先将γ发送到1,保持δ固定,然后将δ发送到1。定义9。对于每个0≤ δ<1,策略文件π*如果存在序列γk,则在g下δ稳定→ 1和相关的稳态策略序列π(k)∈ ∏*(g,δ,γk),使得π(k)→ π*. 战略文件π*如果存在δk序列,则在g下耐心稳定→ 1和相关的策略序列π(k),其中每个π(k)在g和π(k)下是δk-稳定的→ π*.战略文件π*如果在某些常规的先验g下是耐心稳定的,则是耐心稳定的。启发式地,耐心稳定的策略是当代理变得非常耐心(因此发件人愿意进行许多实验)和长寿命(因此双方的代理都可以学习足够的数据以超过其先验)时,学习结果的限制。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:26
正如过去关于稳态学习的研究(Fudenberg和Levine,1993年,2006年)一样,这种限制顺序的原因是为了确保大多数代理拥有足够的数据,从而停止实验并做出近视最佳反应。我们不知道我们的结果是否扩展到其他限制顺序;我们在概述命题5.5.2关于δ-稳定性和患者稳定性的初步结果后,解释了下面涉及的问题。γ接近1时,代理人正确地了解了他们频繁使用的策略的后果。但在一定的耐心水平下,他们可能会选择很少或从不尝试,因此可能会对他们不玩的策略的后果保持错误的信念。下一个结果正式表明了这一点,这与Fudenberg和Levine(1993)的结果相似,即δ稳定的战略文件是自我确认的平衡。如果代理最终并没有随着年龄的增长而停止试验,那么即使大多数代理拥有近似正确的信念,总体博弈也不必接近纳什均衡,因为大多数代理不会对其信念做出(静态)最佳反应。提案4。假设战略文件π*在正则先验下是δ-稳定的。然后对于每种类型的θ和带π的信号s*(s |θ)>0,s是对某些π的最佳响应∈ θ型为∏,此外π(·| s)=π*(·| s)。同样,对于任何信号s,π*(s |θ)>0,对于至少一种类型的θ,π*(·| s)支持对π生成的贝叶斯信念的纯最佳响应*在s之后,我们在在线附录中证明了这一结果。证明的思想如下:如果信号的正概率在极限内,那么发送方会多次播放它,因此接收方会在给定的θs中学习正确的后验分布。由于接收方没有激励实验,他们在s之后的行为将是对这一正确后验信念的最佳反应。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:29
对于发送方,假设π*(s |θ)>0,但s不是θ型对任何π的最佳响应∈ 与π匹配的∏*(·| s)。然而,如果发送者多次玩s,那么她对π(·| s)的信念很可能接近π*(·| s),所以玩s不是目光短浅的最佳选择。这意味着类型θ对于信号s具有持久的选项值,这与该选项值必须随样本大小收敛到0的事实相矛盾。备注3。这个命题说,每种发送者类型都在对均衡路径上正确的接收者游戏的信念做出最佳反应,接收者对发送者的总游戏做出聚合最佳反应。因此,δ稳定的结果是对自我确认平衡的厌恶,不同类型的发送者可以有不同的信念。此外,如下一个示例所示,即使所有类型的新发送者在接收者如何发挥作用方面都具有相同的优先权,发送者对接收者的聚合策略的信念中的这种异质性也会在δ稳定的策略中内生产生。示例2。考虑以下博弈:Dekel、Fudenberg和Levine(2004)定义了静态Bayesiangames中的类型异质自确认平衡。正如他们所指出的,当每个代理的类型固定时,这种异质性是很自然的,但如果每个代理的类型在每个时期都是i.i.d.绘制的,则不存在这种异质性。为了将其定义扩展到信号游戏,我们可以从该论文中定义“信号函数”yi(a,θ),以尊重游戏的广泛形式。另请参见?。接受者对所有的反应都是不同的。确定接收方的任何常规优先权g,以及发送方的任何常规优先权g。设g(s)在a上为Beta(1,3),分别为。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:33
我们声称,当δ=0时,这两种类型都是δ-稳定的,即发送沙子,让接收器用a响应每个信号,这是一种异质合理化的自我确认平衡。然而,这种合用行为不能发生在纳什均衡或单一自我确认均衡中,在纳什均衡或单一自我确认均衡中,两种发送方类型必须对接收方如何响应持有相同的信念。要确立这一说法,请注意,由于δ=0,每个发送方在每次历史之后都会播放近视最佳信号。对于任何γ,都有一个稳定的状态,即接收者的策略在每次历史之后都会对每个信号做出反应,θ型发送者在每次历史之后都会玩SAFER,并且从不更新他们之前关于接收者对s的反应的信念,θ型发送者在经历少于6个周期的情况下会玩SBR,但从7岁开始会切换到SFORVER。θ代理的行为是最优的,因为在k个玩沙周期后,发送者对π(·| s)的后验信念是β(1+k,3),因此下一个玩沙周期的预期收益是1+k4+k(-1) +4+k(2)。当0时,此表达式为正≤ k≤ 5,但当k=6时为负值。6岁及以下θ型的分数接近0,为γ→ 因此,我们构建了一系列稳态策略,这些策略将收敛到假脱机平衡。因此,尽管这两种类型都以相同的前g开头,但他们对接受者对第七个g的反应的看法有所不同。与大量δ稳定的结果相反,我们现在表明,当δ趋于1时,只有纳什均衡才能成为稳态结果。此外,这一限制还排除了策略性文件,在这些文件中,发送方的策略只能由接收方对一些未发送的信号做出主导动作的信念来支持。定义10。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:36
在信号博弈中,具有异质作用路径信念的完美贝叶斯均衡是一个策略文件(π*, π*) 这样:o对于每个θ∈ Θ,u(θ;π)*) = 最大值∈Su(θ,s,π*(·| s))。o对于每个路径信号s、u(p*(·| s),s,π*(·| s))=最大^a∈Au(p*(·| s),s,a)。o对于每个有效路径信号s和每个a∈ 带π的A*(a | s)>0,存在一个信念p∈ (Θ)使得u(p,s,a)=最大^a∈Au(p,s,^a)。这里u(θ;π*) 指π下θ型的payoff*, 和p*(·| s)是在策略π下,关于信号s后的森德类型的贝叶斯后验信念*.前两个条件意味着利润是纳什均衡。第三个条件类似于完美贝叶斯均衡,但有点弱,因为它允许接收者在收到一个异径信号后,通过几个动作进行混合,每个动作都是对发送者类型的不同信念的最佳反应。这意味着π*(·| s)∈ (BR((Θ),s)),但π*(·| s)本身可能不是对任何关于发送者类型的单一信念的最佳回应。提案5。If策略文件π*耐心是稳定的,那么它就是一个具有异质作用路径信念的完美贝叶斯均衡。证据在在线附录中,我们证明了耐心稳定的结果必须是纳什均衡。这一论点遵循了Fudenberg和Levine(1993)的证明策略,该策略通过超额期权价值得出了一个矛盾。在大纲中,如果π*耐心稳定,每个玩家的策略都是对正确的对手路线战术信念的最佳回应。因此,如果π*如果不是纳什均衡,某种类型的人应该感知到一个持久的期权值,用概率为0的信号进行实验。但这与在足够长的历史中评估的期权价值必须为0这一事实相矛盾。现在我们来解释为什么一个patientlystable pro-fileπ*必须满足定义10中的第三个条件。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:39
在观察任何历史之后,一个从常规先验开始的接受者认为每个信号在他的下一场比赛中都有正概率。因此,他的最优策略为每个信号s规定了一个最佳响应,即在历史y之后看到信号s时,接收者对发送者类型的偏好或信念。对于任何规则先验g,0≤ δ、 γ<1,并且任何发送方聚合起作用π,因此我们推断Rg,δ,γ[π](·| s)完全支持BR((Θ),s)。这意味着,在每一个稳定状态下,以及因此在每一个耐心稳定的战略文件中,总的接收者反应也是如此。在Fudenberg和Levine(1993)中,这一论点依赖于代理人的有限寿命,仅通过选择足够大的寿命来确保“几乎所有”历史足够长。通过选取接近1的γ,我们可以在几何寿命模型中实现类似的效果。我们的证明使用的事实是,如果δ是固定的,γ→ 1,那么发送者需要进行的实验数量相对于其预期寿命而言可以忽略不计,因此大多数发送者对其当前信念的反应大致最佳。如果我们fixγ和letδ,则不能得出相同的结论→ 1,即使最优发送方策略只取决于乘积Δγ,因为对于固定发送方策略,发送方播放的诱导分布取决于γ而不是δ。5.3患者稳定性意味着相容性标准建议5允许接受者使用任何信念维持其作用路径行动∈ (Θ)。我们现在来看看我们的主要结果,它集中于重新定义作用路径信念。我们证明了耐心稳定性选择了纳什均衡的一个严格子集,即那些满足相容性标准的纳什均衡。定义11。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:42
对于固定策略,文件π*, 设u(θ;π*) 表示π下θ型的支付*, 和letJ(s,π*):=θ∈ Θ:maxa∈Au(θ,s,a)>u(θ;π)*)是一组类型,对于这些类型,信号s的某些响应严格优于π下的payoff*. 信号s对于J(s,π)的补码中的类型是弱平衡占优的*).函数π下信号s的容许信度*areP(s,π*):=\\nPθ。θ: θsθ和θ∈ J(s,π)*)这里Pθ。θ在方程式(5)中定义。也就是P(s,π*) 是Pθ族施加的联合信念约束。θ表示(θ,θ)满足两个条件:θ比θ与s更相容,而且更相容的θ属于J(s,π*). 如果没有满足这两个条件的对(θ,θ),那么(根据无元素相交的约定)P(s,π*) 定义为(Θ)。在任何信号游戏中,对于任何π*, 集P(s,π)*) 总是非空的,因为它总是包含先验λ。定义12。战略文件π*如果π(·| s)满足兼容性标准∈ (BR(P(s,π*), s) )与直觉标准或Cho和Kreps(1987)的D1标准不同的是,对于每一个s.一样的神圣平衡,兼容性标准只说一些信号不应该增加“不可信”类型的相对可能性,而不是要求这些类型的概率为0。有人可能会想象一个兼容标准的版本,其中信念约束Pθ。θ在θ时适用sθ。为了理解为什么我们需要θ的附加条件∈J(s,π)*) 在定义可接受信念时,请记住引理3仅在π(s |θ)对于类型更兼容的θ“足够大”时,才为接收器的问题提供学习保证。在极端情况下,s是θ的严格控制信号,她在学习过程中永远不会播放它。结果表明,如果s对θ是弱平衡占优的,那么θ可能仍然不会对此进行太多实验。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:45
另一方面,下一个引理提供了θ与swhen实验频率的下限∈ J(s,π)*) δ和γ接近1。引理4。修正常规的先验g和策略文件π*其中,对于某些类型的θ和信号,θ∈ J(s,π)*). 存在一个数字 ∈ (0,1)和阈值函数δ:N→ (0,1)和γ:N×(0,1)→ (0,1)使得每当π∈ ∏*(g,δ,γ)带δ≥δ(N)和γ≥ γ(N,δ)和π不大于 远离π*在第二种情况下,我们有π(s |θ)≥ (1)- γ) ·N.电阻isd(π,π*) =Xθ∈ΘXs∈S |π(S |θ)- π*(s |θ)|+Xs∈SXa公司∈A |π(A | s)- π*(a | s)|。注意,由于π(s |θ)介于0和1之间,我们知道(1- γ(N,δ))·N<1每N。在线附录中提供了该引理的证明。为了获得对它的直觉,假设在π中,不仅sequilibrium是不确定的*, 但是,此外,在某些接收器响应a下,扫描导致θ型的最高信号博弈支付。因为先验是非理论的,学习问题中每个信号的Gittins指数接近其在阶段博弈中的最高可能支付,因为发送者变得非常耐心。因此,对于每N∈ N、 当γ和δ足够接近1时,一种新类型的θ将在她生命的前N个阶段中的每一个阶段都起作用,无论她在这段时间内收到了什么样的反应。这N个周期约占(1- γ) ·她生命的N部分,证明了这个特殊情况下的引理。事实证明,即使SDO不能在信号游戏中带来最高的潜在回报,长寿的玩家也会对他们的稳态回报有一个很好的估计。因此,θ型仍将发挥战略文件π中均衡主导的任何作用*在任何非常接近π的稳态中至少N次*, 虽然这N个时期可能不会发生在她生命的开始。定理2。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:48
每个耐心稳定的策略文件π*满足兼容性标准。这个证明结合了引理2、引理3和引理4。引理2表明,与splay更兼容的类型会更频繁地显示它。引理4说,对于那些不受弱平衡支配的人来说,他们会“多次”玩这个游戏最后,引理3表明,这里的“多次”非常大,大多数接受者正确地认为,相容性更强的类型比相容性较弱的类型发挥的作用更大,因此,相容性更强的类型与相容性较弱的类型的后验优势比超过了前验优势比。证据假设π*在常规前g下耐心稳定。固定沙子和动作^a/∈BR(P(s,π*), s) 。设h>0。我们将显示π*(^a | s)<h。由于s、^a和h>0的选择是任意的,我们将证明该定理。步骤1:设置一些常量。在引理3的陈述中,对于每一对θ,θ使得θsθ和θ∈ J(s,π)*), 放 =h2 |Θ|并找到Cθ、θ和γθ、θ,以便结果成立。设C为所有suchCθ,θ的最大值,γ为所有此类γθ,θ的最大值。还发现n≥ 1因此1-n> 1个-h2 |Θ|。(6) 在引理4的陈述中,对于每个θ至少一个θ的sθ,findθ、 所以引理成立。写*> 0作为所有这些中的最小值θ和let′δ*(nC)和γ*(nC,δ)表示δθ和γθ在该θ上的最大值。第2步:找到δ、γ较大且近似于π的稳态曲线*.自π起*在g下耐心稳定,存在一系列策略变量π(j)→ π*式中,π(j)在g和δj下是δj-稳定的→ 1、每个π(j)可以写为稳态策略文件的极限。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:51
也就是说,对于每个j,都存在γj,k→ 1和一系列稳态曲线π(j,k)∈ ∏*(g,δj,γj,k)使得limk→∞π(j,k)=π(j)。阵列π(j,k)到π的收敛性*意味着我们可能会发现j∈ N和函数k(j),所以当j≥ j和k≥ k(j),π(j,k)不大于min(*,h2 |Θ|)远离π*. Findj公司o≥ j足够大soδo:= δjo>\'\'δ*(nC),然后找到足够大的ko> k(jo) 所以γo:= γjo,ko> 最大((R)γ*(nC,δo), γ) 。因此,我们确定了一个稳态函数πo:= π(jo,ko)∈∏*(g,δo, γo) 近似于π*至最小值内(*,h2 |Θ|)。步骤3:为每对θ应用Rand R的属性,θ使θsθ和θ∈ J(s,π)*), 我们将限制π的概率o(·| s)对Pθ的反应不是最好的。θbyh |Θ|。因为最多有|Θ|·(|Θ|- 1) 交叉口定义P(s,π)中的此类空气*), 这意味着πo(a | s)<[|Θ|·(|Θ|- 1) ]·h |Θ|自^a/∈ BR(P(s,π*), s) 。自π以来o距离π不超过h2 |Θ|,这将显示π(^a | s)<h。通过构造πo比更接近θ到π*, 还有δo≥Δθ(nC)和γo≥ \'-γθ(nC,δo).引理4,πo(s |θ)≥ nC(1- γo). 同时,πo= R[πo] 和θsθ,所以引理2意味着πo(s |θ)≥ πo(s |θ)。转向接收器侧,πo= R[πo] 带πo满足引理3与 =h2 |Θ|和γo≥ γ。因此,我们得出πo(BR(Pθ.θ,s)| s)≥ 1.-n-h2 |Θ|。但通过方程(6)中n的构造,1-n> 1个-h2 |Θ|。因此LHS至少为1-h |Θ|,根据需要。备注4。更一般地,考虑具有几何分布寿命的代理种群的任何模型,该模型生成聚合响应函数Rand R。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:54
将(g,δ,γ)下的稳定状态定义为策略变量π*使得Rg,δ,γ(π*) = π*和Rg,δ,γ(π*) = π*,定理2的证明适用于新学习模型的耐心稳定证明,前提是Rsatis fi是引理2的结论,Rsatis fi是引理3的结论,引理4对(θ,s)对有效,因此θ至少一种类型θ和θ的sθ∈ J(s,π)*).下面我们将概述两种更为通用的学习模型。(证据见在线附录。)推论1。通过对第2节的稳态学习模型进行以下任一修改,每个耐心稳定的策略文件仍然满足兼容性标准。(i) 。异质性先验知识。存在规则发送方优先级{g1,k}nk=1的有限集合,以及规则接收方优先级{g2,k}nk=1的有限集合。在出生时,代理被赋予随机先验,其中先验分布对于发送者和接收者分别为u和u。代理人的优先权独立于其支付类型,而且没有人观察到其他人的优先权。(二)。社会学习。假设1- 如第2节所述,发送人中的α分数为“普通学习者”,但剩余的0<α<1分数为“社交学习者”在每个周期结束时,社交学习者可以观察其匹配的接收者的广泛形式策略,以及随机均匀抽样的c>0其他匹配的广泛形式策略。每个寄件人在出生时都知道她是正常的学习者还是社交学习者,这与她的支付类型无关。接收者无法区分这两种发送者。示例1(续)。例1的啤酒蛋饼游戏有两个纳什均衡的组成部分:“啤酒池均衡”,其中两种类型都以概率1玩啤酒,以及“蛋饼池均衡”,其中两种类型都以概率1玩蛋饼。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:44:57
在乳蛋饼池平衡π中*, θstrong型的平衡payoff是2,所以θstrong∈ J(啤酒,π*) 既然θstrong在啤酒下的最高可能收益是3,我们已经证明θstrong啤酒θ淡。所以,P(啤酒,π*) =(p∈ (Θ):p(θ弱)p(θ强)≤λ(θ弱)λ(θ强)=1/9)。啤酒后的争斗并不是对任何此类信念的最佳反应,因此啤酒后以正概率发生争斗的均衡不符合兼容性标准,而thusno quiche池均衡是耐心稳定的。由于耐心稳定的结果集是纳什均衡集的非空子集,所以喝啤酒是唯一的耐心稳定的结果。根据推论1,在涉及异质先验或社会学习者的更一般的学习模型中,乳蛋饼池均衡仍然不稳定。5.4患者稳定性和均衡优势在一般信号博弈中,接收方使用纯策略的均衡必须满足比兼容性标准更高的astronger条件才能保持患者稳定。定义13。LeteJ(s,π*):=θ∈ Θ:maxa∈Au(θ,s,a)≥ u(θ;π)*).IfeJ(s,π*) 是非空的,定义了信号分解π下的强容许信念*tobe▄P(s,π*):= (eJ(s,π*))\\nPθ。θ: θsθ在Pθ处。θ在方程式(5)中定义。否则,定义P(s,π*) := (Θ)。这里,eJ(s,π*) 是一组类型,对于这些类型,信号s的某些响应至少与其在π下的平衡支付一样好*— 也就是说,在Cho和Kreps(1987)的意义上,s不平衡的一组类型。请注意,EP与P不同,将概率0分配给平衡主导类型,这是直觉标准的信念限制。定义14。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:01
纳什均衡π*对于每个路径信号,接收机的路径是否严格*, π(a*|s*) = 1对于一些a*∈ A和u(s*, 一*, π) >最大6=a*美国*, a、 π)。当然,接收者不能对未到达的信息集的播放有严格的事前偏好;这种情况被称为“路径严格”,因为它在收到路径信号后对接收者的激励没有限制。在一般的信令博弈中,所有纯策略均衡对接收方都是路径严格的,但对于混合策略均衡,情况并非如此。定义15。战略文件π*如果每个信号都有π,则满足强兼容性标准*(·| s)∈ (BR(eP(s,π*), s) )。强兼容性标准直接意味着兼容性标准,因为它对接收者的行为施加了更严格的限制。同时,强兼容性标准意味着直觉标准。定理3。假设π*对接受者严格且耐心稳定。然后满足强兼容性标准。该定理的证明见附录A.5。其主要思想是,当作用路径信号在π中占主导地位时*对于θDb型,即使是弱平衡也不占主导地位。对于θU型,θU型将使用θDdoes“更频繁地”进行实验。实际上,我们可以提供θDever偏离其平衡信号s的稳态概率的上界*在第一次尝试后,这也是θ与s的试验频率的上限,而引理4提供了θ与s的试验频率的下限。Weshow有一系列稳态曲线π(k)∈ ∏*(g,δk,γk)和γk→ 1和π(k)→ π*其中,下限与上限的比率为单位。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:05
应用Fudenberg、He和Imhof(2017)的定理2,我们可以证明接收者将推断s发送者“更可能”是θUthanθD,这意味着接收者必须在sin平衡π后将概率0分配给θdaf*.备注5。正如Fudenberg和Kreps(1988年)以及Sobel、Steel和Zapater(1990年)所指出的那样,学习和理性实验似乎“直觉地”应该引导接受者将概率0分配给均衡主导的类型,因此这一理论需要额外的假设,即均衡对接受者来说是严格的。然而,当π*对于接收器而言,不在路径严格限制上。当π*涉及接收人在s之后严格混合几个响应*, 这些反应中的一些可能会使θd比s之后的最差回报严重得多,因此θd连续出现大量这些不良反应,然后停止播放s的可能性是不消失的*.在我们的模型中,发送者一开始对接收者的发挥不确定,因此,即使是以均衡为主的信号类型,最初也可能对其进行实验。要证明这些实验不会导致接受者做出“反常”反应,需要对平衡主导型和非平衡主导型发挥作用路径信号的相对概率进行一些论证。当均衡涉及路径上的接收者随机化时,非平凡的一部分接收者可以在类型的均衡信号后发挥作用,该类型的均衡信号严格低于其在反路径信号下的最差支付。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:08
在这种情况下,我们看不到如何显示她曾经耐心地偏离平衡信号的概率趋向于0,因为在arow中看到大量这些不利响应的事件的概率是有界的,即使在接收者群体完全发挥他们的需求平衡策略时也是如此。然而,我们没有一个反例来证明定理的结论在没有接收器的路径严格性的情况下是失败的。示例3。在下面修改的啤酒蛋饼游戏中,与例1相比,与θweakhodrinks类型的啤酒较量的回报大幅增加,因此,现在打架是对啤酒之后先前信念λ的最好回应。由于在任何信号之后的任何信号博弈中,先验λ始终是一个可接受的信念,因此灰平衡π*与示例1不同,兼容性标准不排除这两种类型都玩蛋奶饼(受啤酒后打架的接受者支持)的情况。然而,这种平衡被强相容性准则所排除。要了解原因,请注意,这种池均衡对接收器来说是路径严格的,因为接收器在唯一的路径信号Quiche上有一个不打架的严格偏好。此外,π*不满足强兼容性标准,因为EEJ(啤酒,π*) = {θstrong}意味着Beer将概率1分配给θstrong的发送方后,唯一的强可容许信念。因此,定理3意味着这种平衡不是耐心稳定的。6讨论我们的学习模型假设代理具有几何分布的生存时间,这也是使用Gittinsindex可以解决发送者优化问题的原因之一。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:11
如果代理具有固定的生命周期,如Fudenberg和Levine(1993,2006),他们的优化问题将不会是固定的,Gittinsindex的有限视界模拟对于有限视界多臂匪徒问题来说只是近似最优的(Ninomora,2011)。将几何寿命框架应用于其他类型的广泛形式游戏的稳态学习模型可能会证明是卓有成效的,尤其是对于我们需要比较不同玩家或玩家类型行为的游戏,以及对其他类型动态决策的研究。定理1根据两个代理对奖品的静态偏好,比较了geometriclifetime bandit问题中两个代理的动态行为。作为一个即时应用程序,考虑一个委托代理设置,其中代理面对一个手持武器的多武装匪徒∈ S、 其中S根据一些分布从ZS中领奖。主体知道代理的每周期效用函数u:∪sZs公司→ R、 但不是代理人对不同部门的价格分布的信念,也不是代理人的折扣系数。假设委托人观察到代理在第一阶段选择arm 1。委托人可以对不同的奖品和武器征收税收和补贴,将代理人的效用函数改为u。对于哪些税收和补贴,代理人在第一阶段仍然会选择武器1,而不考虑其最初的信念和折扣系数?根据定理1,答案正是那些税收和补贴,因此arm 1与u比u更兼容。我们的结果提供了一个在签名游戏中耐心稳定的策略集的上界。在Fudenberg和He(2017)中,我们为同一组提供了一个下界,并且在对先验值的额外限制下,提供了一个更清晰的上界。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:14
但综合起来,这些结果无法准确描述耐心稳定的结果。然而,我们的结果展示了博弈学习理论如何为重新定义信号博弈中的均衡集奠定了基础。在未来的工作中,我们希望研究一种以临时发送者类型为特征的学习模型。在每个周期开始时,每个发送者都会从λ中抽取一个i.i.d.来发现她在该周期的类型,而不是在出生时指定并终身固定发送者的类型。如Dekel、Fudenberg和Levine(2004)所述,当玩家不耐烦时,这会产生不同于固定类型模型的稳态。这个模型需要不同的工具来分析,因为发送者的问题变成了一个躁动不安的强盗。ReferencesBanks,J.S.和J.Sobel(1987):“信号博弈中的均衡选择”,《计量经济学》,55647-661。Bellman,R.(1956):“实验顺序设计中的问题”,《印度统计杂志》(1933-1960),16221-229。Billingsley,P.(1995):概率与度量,John Wiley&Sons。Cho,I.-K.和D.M.Kreps(1987):“信号博弈和稳定均衡”,《经济学季刊》,102179-221。Dekel,E.、D.Fudenberg和D.K.Levine(1999):“支付信息和自我确认均衡”,《经济理论杂志》,89165-185(2004):“学习玩贝叶斯游戏”,游戏与经济行为,46282-303。Diaconis,P.和D.Freedman(1990):“关于多项式概率Bayes估计的一致一致一致性”,《统计年鉴》,181317–1327。Esponda,I.和D.Pouzo(2016):“伯克-纳什均衡:用不规范模型对代理人建模的框架”,计量经济学,841093-1130。Fudenberg,D.和K.He(2017):“信号游戏中的学习和平衡问题”,Mimeo。Fudenberg,D.,K.He和L.A。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:17
Imhof(2017):“任意罕见事件的贝叶斯后验概率”,《国家科学院学报》,114,4925–4929。Fudenberg,D.和D.M.Kreps(1988):“游戏中的学习、实验和平衡理论”,Mimeo(1993):“学习混合均衡”,《博弈与经济行为》,5320-367(1994):“广泛形式游戏中的学习,II:实验和纳什均衡”,Mimeo(1995):“广泛形式的学习游戏I.自我确认均衡”,《游戏与经济行为》,8,20–55。Fudenberg,D.和D.K.Levine(1993):“稳态学习和纳什均衡”,《计量经济学》,第61547-573页(2006):“迷信与理性学习”,《美国经济评论》,96630-651。Gittins,J.C.(1979):“Bandit过程和动态分配指数”,《皇家统计学会杂志》。系列B(方法学),148–177。Jehiel,P.和D.Samet(2005):“通过估值学习广泛形式的游戏”,《经济理论杂志》,124129-148。Kalai,E.和E.Lehrer(1993):“理性学习导致纳什均衡”,《计量经济学》,611019–1045。Laslier,J.-F.和B.Walliser(2015):“顽固的学习”,《理论与决策》,79,51-93。尼诺·莫拉(Ni~no-Mora,J.)(2011):“计算有限地平线强盗的经典指数”,INFORMSJournal on Computing,23254–267。Sobel,J.、L.Steel和I.Zapater(1990):“信号博弈中的固定均衡合理化”,《经济理论杂志》,52304-331。Spence,M.(1973):“就业市场信号”,《经济学季刊》,87355-374。附录-降级证明A。1命题1的证明命题1:(i)。sis可传递。(二)。除非sis对θ和θ都严格占优,或对θ和θ都严格占优,θsθ表示θ6sθ。证据表示(i),假设θsθ和θsθ。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:20
对于任意π∈ π其中,对于θ是弱最优的,对于θ必须是严格最优的,因此对于θ也是严格最优的。这表示θsθ。为了建立(ii),将接收器策略集划分为∏=∏+∪∏∪∏-, 其中,三个子集指的是使S比θ的最佳替代信号更好、不同或更差的接收机策略。如果集合∏是非空的,那么θsθ表示θ6sθ。这是因为对于任何π∈ π,信号对θ是严格最优的,但对θ只有弱最优。同时,如果∏+和∏-是非空的,则∏是非空的。这是因为Bothπ7→ u(θ,s,π(·| s))和π7→ maxs6=su(θ,s,π(·| s))是连续函数,对于任何π+∈ π+和π-∈ ∏-, 存在α∈ (0,1)使得απ++(1- α) π-∈ ∏。如果∏+为非空且θsθ,则对θ和θ都是严格占优的。如果只有∏-如果不为空,那么我们可以得到θsθ仅当sis永远不是θagainanyπ的弱最佳响应时∈ ∏。A、 引理1的证明:对于每个信号s、停止时间τ、置信度νs和贴现因子β,都存在π2,s(τ,νs,β)∈ (A) 所以对于每个θ,EνsnPτ-1t=0βt·u(θ,s,as(t))oEνsnPτ-1t=0β至=u(θ,s,π2,s(τ,νs,β))证明。步骤1:诱导混合动作。信念和停止时间τstogether定义了一个随机过程(At)t≥0空间上方a∪ {}, 在何处∈ 如果τshas未被抑制(τs>t),则A对应于周期t中看到的接收器动作,且在:= 如果τshas停止(τs≤ t) 。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:24
枚举A={A,…,an},我们写下,i:=Pνs[At=ai]为1≤ 我≤ n记录在周期t和pt中看到接收器动作的概率,0:=Pνs[At=] = Pνs[τs≤ t] 对于在tdue至τ剃须停止的周期内看不到接收器动作的概率。给定νsandτs,我们定义信号s,π2,s(νs,τs,β)后诱导的混合作用∈ (A) by:π2,s(νs,τs,β)(A):=P∞t=0βtpt,iP∞t=0βt(1- 对于i,pt,0),使得a=ai。AsPni=1pt,i=1- pt,每t 0≥ 0,很明显,π2,s(νs,τs,β)将非负权重作用于A,其和为1,因此π2,s(νs,τs,β)∈ (A) 可能确实被视为过度接管行为的混合物。第2步:诱导混合行动和每期支付。我们现在证明,对于信号s的任何β和任何停止时间τ,停止问题中的归一化支付等于在一个周期内对π2,s(νs,τs,β)播放s的效用,即u(θ,s,π2,s(νs,τs,β))=Eνs(τs-1Xt=0βt·u(θ,s,as(t))/Eνs(τs-1Xt=0βt)。要了解为什么这是真的,请重写右侧的分母asEνs(τs-1Xt=0βt)=Eνs(∞Xt=0[1τs>t]·βt)=∞Xt=0βt·Pνs[τs>t]=∞Xt=0βt(1- pt,0),并重写分子asEνs(τs-1Xt=0βt·u(θ,s,as(t)))=∞Xt=0βt·pt,0·0 |{z}如果已经停止,则获取0+nXi=1pt,i·u(θ,s,ai){z}否则,as(t)分布为(pt,i)=nXi=1∞Xt=0βt·pt,iu(θ,s,ai)。总的来说,我们得到了所需的:Eνs(τs-1Xt=0βt·u(θ,s,as(t))/Eνs(τs-1Xt=0βt)=nXi=1”(P∞t=0βt·pt,i)P∞t=0βt(1- pt,0)#·u(θ,s,ai)=u(θ,s,π2,s(νs,τs,β))。A、 3引理3的证明引理3:让正则先验g、θ、θ类型和信号sbe固定。对于每个 > 0,存在sc>0和γ<1,因此对于任何0≤ δ<1,γ≤ γ<1,n≥ 1,如果π(s |θ)≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,thenR[π](BR(Pθ.θ,s)| s)≥ 1.-n- .我们引用了Fudenberg、He和Imhof(2017)的定理2,在我们的环境中,该定理说:让常规先验gand信号sbe固定。让0<, h<1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:27
存在C,使得每当π(s |θ)≥ π(s |θ)和t·π(s |θ)≥ C、 我们得到ψπy∈ Y[t]:p(θ| s;Y)p(θ| s;Y)≤1.- h·λ(θ)λ(θ)/ψπ(Y[t])≥ 1.- 式中,p(θ| s;y)是指根据历史y所诱导的后验信念,s的发送者为θ型的条件概率。也就是说,如果在t岁时,接收者会在预期C中观察到θ型发送者的实例,那么至少1-  年龄t受体的比例(本质上)下降到Pθ。θ在看到信号s后。引理3的证明计算出满足此“A要求”的接收器的比例证据我们将显示以下更强的结果:让正则先验g、类型θ、θ和信号sbe固定。对于每个 > 0,存在C>0,因此对于任何0≤ δ、 γ<1和n≥ 1,如果π(s |θ)≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,thenR[π](BR(Pθ.θ,s)| s)≥ γdn(1-γ) e类- 引理如下,因为我们可以选择一个足够大的γ<1,以便γdn(1-γ) e>1-n总体n≥ 1和γ≥ γ。对于每个0<h<1,确定Phθ。θ:=p∈ (Θ):p(θ)p(θ)≤1.-h·λ(θ)λ(θ),约定为0。很明显,每个Phθ。θ、 以及Pθ。θ本身是(Θ)。同样,Phθ。θ→ Pθ。θ为h→ 0、修复操作a∈ A、 如果所有h>0,则存在一些0<h≤(R)h以便∈ BR(Phθ,s),然后a∈ BR(Pθ,θ,s)也是由于最佳响应对应具有闭合图。这意味着/∈ BR(Pθ.θ,s),存在'ha>0,因此a/∈ BR(Phθ.θ,s)当0<h时≤\'\'哈。Let’h:=米纳/∈BR(Pθ.θ,s)’ha。允许 > 给出0并应用Fudenberg、He和Imhof(2017)的定理2 当π(s |θ)为≥ π(s |θ)和π(s |θ)≥ (1)- γ) nC,考虑t的年龄t接收器≥ln(1-γ) m.自t·π(s |θ)起≥ C、 Fudenberg、He和Imhof(2017)的定理2暗示概率至少为1-  该接收者对发送P'hθ中SFALL的类型的信念。θ。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:32
通过构造'h,BR(P'hθ.θ,s)=BR(Pθ.θ,s),so 1-  年龄t的受试者有σ(y)(s)的历史∈ BR(Pθ.θ,s)。由于代理在两个周期之间以概率γ生存,因此接收器种群的质量为dLn(1-γ) mor older is(1- γ) ·P∞t=dn(1-γ) eγt=γdn(1-γ) e.这表明sr[π](BR(Pθ.θ,s)| s)≥ γn(1-γ) ·(1)- ) ≥ γdn(1-γ) e类- 根据需要。A、 4命题2的证明命题2:π*∈ ∏*(g,δ,γ)当且仅当Rg,δ,γ[π*] = π*和Rg,δ,γ[π*] = π*.证据If:假设π*是这样的,R[π*] = π*和R[π*] = π*. 考虑状态ψ*定义为ψ*θ: =ψπ*每个θ和ψ的θ*:= ψπ*. 然后,通过构造σθ(ψπ*θ) =π*θ和σ(ψπ*) = π*, 所以态ψ*产生π*. 验证ψ*是一个稳态,我们可以通过定义ψπ来展开*θ、 fθ(ψπ)*θ、 π*) = fθ限制→∞fTθ(¢ψθ,π*), π*,其中|ψθ是任意初始状态。因为fθ在ψπ处是连续的*θ在脚注20中定义,limT→∞fTθ(△ψθ,π)*) = ψπ*θ是fθ(·,π)的固定点*). 要看到这一点,写ψ(T)θ:=fTθ(|ψθ,π*) 对于每个T≥ 1和let > 0开始。fθ的连续性意味着ζ>0,因此d(fθ(ψπ*θ、 π*), fθ(ψ(T)θ,π*)) < /2 Whenverd(ψπ*θ、 ψ(T)θ)<ζ。所以选择一个足够大的T,使得d(ψπ*θ、 ψ(T)θ)<ζ和d(ψπ*θ、 ψ(T+1)θ)</2、Thend(fθ(ψπ*θ、 π*), ψπ*θ)≤ d(fθ(ψπ*θ、 π*), fθ(ψ(T)θ,π*)) + d(ψ(T+1)θ,ψπ*θ) </2+/在线附录中命题3证明的第1步暗示了这一点,它表明fθ在分配(1)的所有状态下都是连续的- γ) γt等于长度t历史的集合。自从 > 0是任意的,我们已经证明了fθ(ψπ*θ、 π*) = ψπ*θ和类似的参数表示f(ψπ*, π*) = ψπ*. 这告诉我们ψ*= ((ψπ)*θ) θ∈Θ,ψπ*) 是一种稳定状态。仅当:相反,假设π*∈ ∏*(g,δ,γ)。然后存在一个稳态ψ*∈ ψ*(g,δ,γ)使得π*= σ(ψ)*).
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-31 03:45:35
这意味着fθ(ψ*θ、 π*) = ψ*θ、 所以迭代显示ψπ*θ: =限制→∞fTθ(ψ*θ、 π*) = ψ*θ。自R[π]*](·|θ):=σθ(ψπ)*θ) ,上述表示R[π*](·|θ)=σθ(ψ*θ) =π*(·|θ)选择ψ*. 我们可以类似地显示R[π*] = π*.A、 5定理3的证明在本小节中,我们将使用以下版本的霍夫丁不等式。事实(霍夫丁不等式)假设X。。。,R上的独立随机变量≤ xi≤ BI,每个i的概率为1。写入Sn:=Pni=1Xi。然后,P[| Sn- E[序号]|≥ d]≤ 2经验值-2dPni=1(bi- ai)!。引理A.1。战略文件π*, 假设s*在路径和π上*(a)*|s*) = 1,其中a*是对s的最佳回应*给定π*. 然后存在N∈ 因此,对于任何正则先验和任何稳态策略序列π(k)∈ ∏*(g,δk,γk),其中γk→ 1,π(k)→ π*, 存在任务∈ N使得每当k≥ K、 我们有π(K)(a*|s*) ≥ 1.- (1)- γk)·N.证明。自a*是s之后的严格最佳响应*对于π*, 存在 > 0,以便*在s之后将继续是严格的最佳响应*对于任意π∈ ∏其中对于每个θ∈ Θ,|π(s*|θ)-π*(s)*|θ) |<3.自π(k)→ π*, 找到足够大的K,使K≥ K表示每个θ∈ Θ,π(k)(s)*|θ)- π*(s)*|θ)<.写入eobsn,θ,表示n个年龄段的接收器遇到θ类型的概率小于nλ(θ)次。我们将找到一些NOB<∞ 所以xθ∈Θ∞Xn=0eobsn,θ≤ Nobs。固定一些θ∈ Θ。写入Z(θ)t∈ {0,1}作为指示随机变量,用于指示接收者是否在其生命的t期内看到θ型,并将Sn:=Pnt=1Z(θ)t写入到n岁之前遇到的θ型总数。我们有E[Sn]=nλ(θ),因此我们可以使用Hoeffing不等式来限定Obsn,θ。eobsn,θ≤ P|序号- E[序号]|≥nλ(θ)≤ 2经验值-2·[nλ(θ)]n!。这表明eobsn,θ以与exp相同的速率趋于0(-n) ,所以∞Xn=0eobsn,θ≤∞Xn=02 exp-2·[nλ(θ)]n!=:Nobsθ<∞.所以我们设置Nobs:=Pθ∈ΘNobsθ。接下来,在观察到jnλ(θ)ki之后,写出ebias,kn,θ的概率。i、 d。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群