第二章 探索与利用explore and exploit
我们所做的决定会给我们提供信息,这些信息对未来的决策有所帮助。
一个经典trade-off:独臂老虎机问题,要最新的还是最好的?
比如,选择在哪家餐厅吃饭?去经常去的餐厅,还是尝试一家新的?探索可能找到更好的选择,但探索阶段收益比较低。
赢留输变策略:这次满意就下次还选它,一次不舒服后就换一家,;
基廷斯指数:根据一个老虎机已知的成功和失败的次数得出下次成功的概率f(w,l),考虑未来收益的递减时,偶然的发现价值更大。有远见的人则偏好稳定已知的情况。
遗憾最少化框架:把自己想象成80岁,回望一生,要把遗憾之事的数量降到最低
应用的例子:设计捐款网页时,设计红色按钮和绿色按钮的两个版本,随机投放给不同的用户,观察哪个群体的捐款比例更高。如果有显著差异,可以逐步推广捐款比例高的设计。自适应性试验:如果一个方案成功了,在样本池中加大这类样本,提高其被抽到的概率。
剩余时间较多时,则优先多探索新的
现实中的另一个风险:航空公司,餐厅这些需要被重复选择的环境的服务水平并不像老虎机一样是一成不变的。
人生:童年是探索阶段,虽然收益低,但是有父母帮助;老年是享受阶段,选择前几十年中探索出的最佳方式并坚持。
个人思考:
决策还要看个人对于风险的偏好。成功失败数分别为1-1和5-5的两台机器,风险回避者选择后者;
经常在一个环境也有熟练度的收益:在比较熟的路上跑步不易受伤,在经常去的餐厅吃饭可以办会员卡享受折扣。