全部版块 我的主页
论坛 经济学论坛 三区 微观经济学 经济金融数学专区
2592 1
2017-06-07

和大家聊聊一个生活中最常见的权衡,以及其背后的数学原理,心理,哲学和商业故事 —— 探索还是利用(explore v.s. exploit

无处不见的权衡(This tradeoff is everywhere

你准备周末聚餐,到底是去你们常去吃的日料店,还是路口新开的印度餐?你准备晚上去运动,到底是去那家这周已经去了三次的健身房,还是试试路口传单推荐的瑜伽或是壁球?你的SK-II神仙水用完了,是继续忠诚补货,还是去试试健康水紫苏水蘑菇水流金水?每天我们都会面对类似的抉择 —— 应该维持自己的传统,还是尝一下鲜?应该继续已知的最优选择,还是探索新的道路?这些生活中无处不见的权衡(tradeoff),可以被推广成,探索(explore),还是利用(exploit)。

某些急性子看到这可能会忍不住停止阅读,并点左上角的 < 键;想,这有什么啊,随着性子来就好了。这之所以被叫做权衡(tradeoff),肯定代表着存在某个最优解——一个二者之间的平衡。在聊最优之前,我们必须先承认,一味地探索,或是一味地利用,都挺二逼的。首先,只会利用不懂得探索的人,生活一定很无趣。长年累日只会去那几家餐馆,吃那几道菜;没有新鲜事、新鲜人,自然就没有激情。同时,只能够探索的人,其实也很惨。对于音乐爱好者来说,音乐杂志编辑可能是梦寐以求的职业。整天可以听不一样的音乐,写的评论还会被世界各地的乐迷阅读。然而很多编辑却有苦难言——工作要求他们一直试听新的音乐,而绝大多数的新音乐都很难听;不少编辑下班之后都会点开自己最喜欢的音乐,相比较这个,工作时听的都是什么垃圾。想想也是,选择成为音乐杂志编辑的人,多多少少都是个音乐爱好者;他们听的音乐的好坏,可是直接影响幸福感的。类似的,美食家和品酒师的工作,可能没有我们想的这么好。

多臂老虎机问题(multi-armed bandit problem

简单来说,探索,就是收集信息;利用,就是使用已有的信息做出最优选择。在上文选饭店的例子里,经过无数次实验,你知道了日料店是我去过的店里面最好吃的,所以利用对应的就是日料店。正如阿法狗并没有意识,下围棋本质上是数学问题一样,这个常见的权衡也可以被具化成一个的数学问题——多臂老虎机问题。

想象一下你是一个赌徒,在拉斯维加斯的赌场里看到了两个老虎机。两个机子每次成本和中奖的奖励是一样的,唯一不知道的中奖的概率。那你应该选着哪个机子玩下去呢?自然地想法是,我先玩一段时间,看看哪个机子中奖的概率明显比另一个高,然后选择概率高的一直玩下去。但是问题是,一段时间是玩多少次?差多少才是明显高?举个例子,你一共玩了19次,机子A的结果是10-7(试了17次,10次中奖,7次不中),机子B1-150%概率中奖)。虽然A的中奖概率大于50%,但你只玩了两次B,说不定B是送钱机器,只是前两次你不够幸运呢?

20次选哪个老虎机取决于你的目标。如果你的目标是最大化第20次的收益,自然选择A,因为A中奖预期(大于50%)比B高;如果你的目标是最大化接下来100次的收益,多试几次B虽然降低了前期的收益预期,万一B的概率比A高,后面80次就能赚回来了。实际上,如果你的目标是后者,在一系列合理的假设下,选择B1-1)比A10-7)更加有利。对数学感兴趣的读者可以搜索“GittinsIndex”,笔者就不展开讨论。

时间!时间!(Time matters)

上文讲到剩下轮数的多少,其实也就聊到了问题的关键 —— “时间。老虎机例子里,时间就是一共玩的轮数 选饭店的例子里,时间就是以后还要出去吃的次数。想象你去一个城市出差,而且近期也不会回到这个城市。相信机智的读者都会选择熟悉的日料店,而不是新开的印度餐。原因很简单,我下次再来这个城市都猴年马月了,何必冒着风险找一个可能更好吃餐厅呢?换句话说,对于时间不同的人来说,最优的策略是不一样的。时间不同是什么意思呢?最常见的不同,就是年龄的不同。

从小受到的语文/文学教育里面,年轻往往和有活力敢于尝试新事物联系在一起;年长却与传统古板,甚至于固步自封一起出现。笔者暑假在家,出去吃饭时总是推荐新的饭店(explore),父母却更喜欢以前常去的地方(exploit)。IT界有了什么新产品新功能(例如微信的搜一搜),笔者也总是第一个去尝试的。习惯性的,我们往往把这些不同简单归结于年龄的不同——“人老了,对新事物没什么热情了,也跟不上了;以后的世界是你们年轻人的咯。然而想深一步,我们会问,为什么上了年纪的人不喜欢尝试新东西呢?

一个心理学研究发现,随着人们年龄的增大,社交圈子也在变小。传统的理论只是简单把这个作为变老之后生活质量下降的例子;具体解释包括,人变老之后对社交圈子的边际贡献(decreased marginalcontribution to social relationship)变小,和社会打交道的机会少了(disengagementfrom society),等等。抛去这些装逼的词汇,大概的意思就是人老了哟,没这个心气没这个心思去社交咯~”。然而,上文我们刚发现,人越老,去尝试新东西带来的好处就越小。说不定,老人们是有意地去减小自己的社交圈子?说不定他们结束了探索explore),已经开始“利用exploit)的阶段?实际上,有人发现社交圈子的减小主要来源于次要的关系peripheral relationship);这个过程更像是一个故意的选择

有些机敏的读者可能会反对,你的意思就是,老一辈的人在决定要不要和多年不见的朋友继续保持联系时,会想到,啊我没多少年可以活了,去试试和这个朋友打交道好像风险太大,以后回报机会少划不来。然后选择和家人一起吃饭?诚然,人们不会有意识的做出最优选择。或许,达尔文叔叔的进化论可以帮帮忙。简单点说,有个基因控制人变老了之后,到底探索(explore)多一点,还是利用(exploit)多一点;然后有利用多一点的基因的后代因为做出了较优的选择,所以更多后代活到了现在。嗯….这样看起来是不是合理多了?

我思故我在,我知故我6knowing is 6-ing

花这么大篇幅讲这个看似明显的研究,主要想说两个信息;也这两点会对某些读者略有启发吧,不枉读者这10多分钟阅读时间。


写这篇文章原因之一是明理。相同的情况下,为什么张三会吃日料,李四会吃印度餐?除了心情,天气,人老了没心情尝鲜咯,和隔壁老王媳妇来没来大姨妈这些听起来很有道理,其实什么都解释的通,等于什么也没解释的玄学理论之外,世界上还有很多学者把他们的一生奉献在这些的看似明显的研究里面。如果你实在没法欣赏到这个问题的价值,酒吧里饭桌上勾搭妹子/帅哥时兴许能用的上 —— “你知道为什么隔壁桌老头总是和同一杯威士忌,对面小哥每次都会尝新酒么?至于你说完这个理论后,妹子是骂傻逼书呆子,还是夸哇这个人好博学噢,就不是这个理论能够决定的了。十有八九,对方的反应取决于你的颜值,和你戴着什么手表 :-)

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-9-14 20:04:01
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群