和大家聊聊一个生活中最常见的权衡,以及其背后的数学原理,心理,哲学和商业故事 —— 探索还是利用(explore v.s. exploit)
无处不见的权衡(This tradeoff is everywhere)
你准备周末聚餐,到底是去你们常去吃的日料店,还是路口新开的印度餐?你准备晚上去运动,到底是去那家这周已经去了三次的健身房,还是试试路口传单推荐的瑜伽或是壁球?你的SK-II神仙水用完了,是继续忠诚补货,还是去试试健康水紫苏水蘑菇水流金水?每天我们都会面对类似的抉择 —— 应该维持自己的“传统”,还是“尝一下鲜”?应该继续已知的最优选择,还是探索新的道路?这些生活中无处不见的权衡(tradeoff),可以被推广成,探索(explore),还是利用(exploit)。
某些急性子看到这可能会忍不住停止阅读,并点左上角的 < 键;想,“这有什么啊,随着性子来就好了。” 这之所以被叫做权衡(tradeoff),肯定代表着存在某个最优解——一个二者之间的平衡。在聊“最优”之前,我们必须先承认,一味地“探索”,或是一味地“利用”,都挺二逼的。首先,只会“利用”不懂得“探索”的人,生活一定很无趣。长年累日只会去那几家餐馆,吃那几道菜;没有新鲜事、新鲜人,自然就没有激情。同时,只能够“探索”的人,其实也很惨。对于音乐爱好者来说,音乐杂志编辑可能是梦寐以求的职业。整天可以听不一样的音乐,写的评论还会被世界各地的乐迷阅读。然而很多编辑却有苦难言——工作要求他们一直试听新的音乐,而绝大多数的“新音乐”都很难听;不少编辑下班之后都会点开自己最喜欢的音乐,“相比较这个,工作时听的都是什么垃圾。”想想也是,选择成为音乐杂志编辑的人,多多少少都是个音乐爱好者;他们听的音乐的好坏,可是直接影响幸福感的。类似的,美食家和品酒师的工作,可能没有我们想的这么好。
多臂老虎机问题(multi-armed bandit problem)
简单来说,“探索”,就是收集信息;“利用”,就是使用已有的信息做出最优选择。在上文选饭店的例子里,经过无数次实验,你知道了“日料店是我去过的店里面最好吃的”,所以“利用”对应的就是日料店。正如阿法狗并没有意识,下围棋本质上是数学问题一样,这个常见的权衡也可以被具化成一个的数学问题——多臂老虎机问题。
想象一下你是一个赌徒,在拉斯维加斯的赌场里看到了两个老虎机。两个机子每次成本和中奖的奖励是一样的,唯一不知道的中奖的概率。那你应该选着哪个机子玩下去呢?自然地想法是,我先玩一段时间,看看哪个机子中奖的概率明显比另一个高,然后选择概率高的一直玩下去。但是问题是,一段时间是玩多少次?差多少才是明显高?举个例子,你一共玩了19次,机子A的结果是10-7(试了17次,10次中奖,7次不中),机子B是1-1(50%概率中奖)。虽然A的中奖概率大于50%,但你只玩了两次B,说不定B是送钱机器,只是前两次你不够幸运呢?
第20次选哪个老虎机取决于你的目标。如果你的目标是“最大化第20次的收益”,自然选择A,因为A的“中奖预期”(大于50%)比B高;如果你的目标是“最大化接下来100次的收益”,多试几次B虽然降低了前期的收益预期,万一B的概率比A高,后面80次就能赚回来了。实际上,如果你的目标是后者,在一系列合理的假设下,选择B(1-1)比A(10-7)更加有利。对数学感兴趣的读者可以搜索“GittinsIndex”,笔者就不展开讨论。
时间!时间!(Time matters!)
上文讲到剩下轮数的多少,其实也就聊到了问题的关键 —— “时间”。老虎机例子里,“时间”就是“一共玩的轮数”; 选饭店的例子里,“时间”就是“以后还要出去吃的次数”。想象你去一个城市出差,而且近期也不会回到这个城市。相信机智的读者都会选择熟悉的日料店,而不是新开的印度餐。原因很简单,我下次再来这个城市都猴年马月了,何必冒着风险找一个可能更好吃餐厅呢?换句话说,对于“时间不同”的人来说,最优的策略是不一样的。那“时间不同”是什么意思呢?最常见的不同,就是年龄的不同。
从小受到的语文/文学教育里面,“年轻”往往和“有活力”,“敢于尝试新事物”联系在一起;“年长”却与“传统”,“古板”,甚至于“固步自封”一起出现。笔者暑假在家,出去吃饭时总是推荐新的饭店(explore),父母却更喜欢以前常去的地方(exploit)。IT界有了什么新产品新功能(例如微信的搜一搜),笔者也总是第一个去尝试的。习惯性的,我们往往把这些不同简单归结于年龄的不同——“人老了,对新事物没什么热情了,也跟不上了;以后的世界是你们年轻人的咯。”然而想深一步,我们会问,“为什么上了年纪的人不喜欢尝试新东西呢?”
一个心理学研究发现,随着人们年龄的增大,社交圈子也在变小。传统的理论只是简单把这个作为“变老之后生活质量下降”的例子;具体解释包括,人变老之后对社交圈子的边际贡献(decreased marginalcontribution to social relationship)变小,和社会打交道的机会少了(disengagementfrom society),等等。抛去这些装逼的词汇,大概的意思就是“人老了哟,没这个心气没这个心思去社交咯~”。然而,上文我们刚发现,人越老,去尝试新东西带来的好处就越小。说不定,老人们是“有意”地去减小自己的社交圈子?说不定他们结束了“探索”(explore),已经开始“利用”(exploit)的阶段?实际上,有人发现社交圈子的减小主要来源于”次要的关系“(peripheral relationship);这个过程更像是一个“故意的选择”。
有些机敏的读者可能会反对,“你的意思就是,老一辈的人在决定要不要和多年不见的朋友继续保持联系时,会想到,‘啊我没多少年可以活了,去试试和这个朋友打交道好像风险太大,以后回报机会少划不来。’然后选择和家人一起吃饭?”诚然,人们不会有意识的做出最优选择。或许,达尔文叔叔的进化论可以帮帮忙。简单点说,有个基因控制“人变老了之后,到底探索(explore)多一点,还是利用(exploit)多一点”;然后有“利用多一点”的基因的后代因为做出了较优的选择,所以更多后代活到了现在。嗯….这样看起来是不是合理多了?
我思故我在,我知故我6(knowing is 6-ing)
花这么大篇幅讲这个看似明显的研究,主要想说两个信息;也这两点会对某些读者略有启发吧,不枉读者这10多分钟阅读时间。
写这篇文章原因之一是明理。相同的情况下,为什么张三会吃日料,李四会吃印度餐?除了心情,天气,“人老了没心情尝鲜咯”,和“隔壁老王媳妇来没来大姨妈”这些听起来很有道理,其实“什么都解释的通,等于什么也没解释”的玄学理论之外,世界上还有很多学者把他们的一生奉献在这些的“看似明显”的研究里面。如果你实在没法欣赏到这个问题的价值,酒吧里饭桌上勾搭妹子/帅哥时兴许能用的上 —— “你知道为什么隔壁桌老头总是和同一杯威士忌,对面小哥每次都会尝新酒么?” 至于你说完这个理论后,妹子是骂“傻逼书呆子”,还是夸“哇这个人好博学噢”,就不是这个理论能够决定的了。十有八九,对方的反应取决于你的颜值,和你戴着什么手表 :-)