刚才和一位网友探讨了有关问题。
对于对方的某个混和策略,本方要寻找一个最优的混和策略(使本方期望收益最大的混和策略),或者说,本方所选择的混和策略即对方混和策略的“反应函数”。特例是本方的最优反应是某个纯策略(一种特殊的混和策略)。
混和策略均衡应该描述这样一个状态:给定其他方的某个混和策略,各方都不愿意再修改自己的混和策略(当然也可以是某个纯策略)。
本题要用到线性规划的方法。
设M是A的收益阵(不妨设为2*3矩阵),则-M是B的收益阵,a(2维向量,分量即概率)是A的混和策略,b(3维向量,分量即概率)是B的混和策略。则对于给定的b,a'Mb即A的期望收益。选择a,使a'Mb最大,得到A的最优反应a*(是b的函数)。同理,得到B的最优反应b*(是a的函数)。联立a*与b*,得均衡解。
给定b,{a*}=argmax(a'Mb);给定a,{b*}=argmin(a'Mb);a、b均符合概率规范性要求。