学博弈论时,有些东西总是似懂非懂的,imperfect recall 就是说决策者不能记得以前决策的所有历史过程,这应该是imperfect information 的情况,如果决策者前面出现过不止一个非单点信息集,他究竟是从哪步开始忘记的?
还有一个就是混合策略和行为策略,二者之间有什么区别和联系?
谢谢给与解释!
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
perfect recall:从博弈树看,设s是某一参与人的任意一个信息集,若x、y是s的两个结点(x、y也可以是相同的结点),则x、y不会分别后续于该参与人之前的两个不同的行动。——这里要提醒的是,分别后续于不同的信息集的行动一定不是相同的行动。
哪个信息集不满足该条件,参与人则在该信息集“忘记”。
楼主能否先区分一下纯策略与行为策略?能区分这两者,混合策略与行为策略就区分开了。
纯策略说明了:在每个信息集分别要确定地采取哪个行动。
行为策略说明了:在每个信息集分别要以哪种概率采取哪个行动(后续于同一信息集的各个行动的概率和是1)。
混合策略说明了:分别要以哪种概率采取哪个纯策略(各纯策略的概率和是1)。