对于任何给定(x,a)∈G、 根据假设2.2的(a)部分,我们有H(x,a,λv+(1- λ) v′)6λH(x,a,v)+(1- λ) H(x,a,v′)6λmaxa∈Γ(x)H(x,a,v)+(1- λ) maxa公司∈Γ(x)H(x,a,v′)=λT v(x)+(1- λ) T v′(x)。自(x,a)∈Gwas武断,上述不等式意味着maxa∈Γ(x)H(x,a,λv+(1- λ) v′)6λT v(x)+(1- λ) 每个x的T v′(x)∈ 十、 这意味着T[λv+(1- λ) v′]6λT v+(1- λ) T v′。条件(ii)的第一部分直接来自(3),因为,对于每个x∈ 十、 T w(X)=最大值∈Γ(x)H(x,a,w)>H(x,a,w)>w(x)。为了确保条件(ii)的第二部分得到满足,根据假设2.2的第(b)部分,t w(x)=maxa∈Γ(x)H(x,a,w)6 w(x)- 每个x的ε∈ 对于某些ε>0。因此,T w<< w、 如图所示。定理5.4。如果Tσ对于所有σ在V上渐近稳定∈ ∑和T在C上渐近稳定,则定理2.3的结论成立。证据让v*是最大值函数,并让v是C中的唯一固定点。要查看“v=v”*, 首先,观察“v”∈ 因此,v至少有一个最大贪婪策略σ。对于这一政策,通过定义,我们在每个x上都有Tσ'v(x)=T'v(x),由此得出'v=T'v=Tσ'v。由于Tσ在v上渐近稳定,我们知道它的唯一固定点是vσ,因此'v=vσ。但接着是“v 6 v”*, 根据V的定义*.要查看反向不等式是否成立,请选择任意σ∈ Σ . 我们有Tσ\'v 6 T\'v=\'v。对这个不等式进行迭代,并使用Tσ的等渗性给出所有k的Tkσ\'v 6\'v。取k的极限,并使用Tσ的渐近稳定性,然后给出svσ6\'v。因此,v*我们现在可以得出结论,v=v*.自'v起∈ C,我们有v*∈ C它紧跟在v处的th之后*是C中Bellman最大化方程的唯一解→ v*每当v∈ C