【背景】 昨天早晨开始,我就发现人人网上开始有一款新的应用——“人人心情总图”。顾名思义,这款应用可以根据用户的某些信息,经过一定的运算,反映出用户在一定时间内“心情”的变化。
貌似大家都在玩,我也弄了一个:

看了一下,觉得还是符合实际——图中有个太阳的地方,大致是2011年8月,当时我才来到美国,一些都很新鲜,自然情绪不错;图中进入2012年下半年后,我的“心情”一路下滑,这种下降趋势一直到2013年,直到最近才有好转——这也很符合实际情况,因为2012年下半年开始申请新的学校,身心备受煎熬,直到前几个才解放。我周围的同学也反应这款应用有些“符合实际”。
【问题的提出】 我却为其计算的方法感到特别的好奇,究竟方法是什么??

【提出假设】首先我想到的假设是,这款应用获取用户发表的状态(因为每个人虽然不发日志,基本上都发状态,而且状态便于处理),进行中文分词,提取出词语,然后对词语进行“情绪分析(sentimental analysis)”,然后综合评价,进行打分。
关于“情绪分析”,多说几句,我不是这个专业的同学,只是略微知道一些实际使用实例。例如,2008年,有研究人员利用用户在几个月内发布的上百万条推特的数据,进行情绪分析之后,得出奥巴马会胜选;也有研究人员用推特研究用户对某一品牌的评价(文献不在这台电脑上……抱歉无法给出引用……)。
【假设检验】要假设这个检验,我就需要发布一些包含正面、负面情感的状态,然后再进行“人人心情总图”测试。在美国东部时间2013年5月24日中午12点,北京时间5月25日凌晨零点,琢磨着大家已经睡觉,服务器已经空闲了,就开始了测试……
测试1,我发布了一下状态:
“快乐,快慰,欣慰,活泼,高兴,兴奋,乐观,乐呵呵,乐在其中,乐观,积极,梦想,坚持,希望,勇敢,愉快,喜悦,喜出望外,快活,欢快,欢乐,欢欣鼓舞,兴冲冲,甜蜜,甜甜的,骄傲,气爽,神清气爽,春风得意马蹄轻,纵情高歌,如释重负,笑眯眯,笑嘻嘻,笑呵呵,笑容可掬,笑得合不拢嘴,笑逐颜开,心花怒放,眉开眼笑,喜上眉梢,喜形于色,喜出望外,欣欣然,欣喜,欣慰,神采飞扬、happy,excited,joyful,optimistic, hopeful, energetic”
这条状态明显一看就是正面情绪,满满正能量啊!然后再发布不久,同学们纷纷来到我的页面,以为我抽风,或者被盗号,或者表白被拒受刺激了。在了解情况之后,他们建议感叹号和人人网的表情可能也是影响因素。于是我接着进行了以下两次测试。
测试2:我清除了测试1发布的内容,以免产生干扰,然后发布以下状态,测试感叹号的效果:
“快乐!!!快慰!!!欣慰!!!活泼!!!高兴!!!兴奋!!!乐观!!!乐呵呵!!!乐在其中!!!乐观!!!积极!!!梦想!!!坚持!!!希望!!!勇敢!!!愉快!!!喜悦!!!喜出望外!!!快活!!!欢快!!!欢乐!!!欢欣鼓舞!!!兴冲冲!!!甜蜜!!!甜甜的!!!骄傲!!!气爽!!!神清气爽!!!春风得意马蹄轻!!!纵情高歌!!!如释重负!!!笑眯眯!!!笑嘻嘻!!!笑呵呵!!!笑容可掬!!!笑得合不拢嘴!!!笑逐颜开!!!心花怒放!!!眉开眼笑!!!喜上眉梢!!!喜形于色!!!喜出望外!!!欣欣然!!!欣喜!!!欣慰!!!神采飞扬、happy,excited,joyful,optimistic, hopeful, energetic”
测试3:同样清除了测试2发布的内容,然后发布以下状态,测试表情的效果:
“




















































”
【测试结果】然后,三次结果和原来的结果完全一样……


【结果分析】有同学说,或许这款应用的分析方法没有用到自然语言处理和情绪分析。我想一想,很有道理:1、这种分析方法处理速度很慢,我一共发了三千多条状态,估计逾十万字,不可能在短短一分钟时间内得出结果;2、情绪分析需要后台语料库,这个是要钱的;3、这款应用有一个叫“Michael Shang”的人完成。而这种方法,涉及自然语言处理,工作量很大,不太可能由一个人完成。例如大家使用过的“人人关键词”就是由清华自然语言处理的一个实验室完成的。
有可能,有可能……这位开发人员,真是用了最简单的方法——就是数状态个数!简单数数!我突然想到,大家心情不好的时候,什么话的也不想说,或者是简单上人人网吐个槽;而心情好的时候,就会经常上人人网,转发,评论,忙个不停。
【再次测试】于是……我就用手工的方式把自己从2011年1月至今,每个月发的状态数目统计了做了图……然后绘制成为下表。大家可以看到,基本上和“人人心情总图”的走势一致,连绝对数目都差不多……

【结论】哎,弄了半天,我还以为多么复杂呢,结果就是一个通过计算每个月用户发布的状态的数目来计算所谓的“人人心情总图”,根本没有其它任何附加计算!

【感想】花了我前后4个小时本来看书的时间,结果让我有些失望。想象中的复杂规律结果有些无厘头。不过生活中的事情大抵如此,原来觉得复杂无比的事情,到头来却简单至极:
例如前段时间我看了一集TED视频,斯蒂文·沃尔夫用元胞自动机进行了演示,提出看上去纷繁复杂宇宙,其基本规则或许是相当简单的,视频在这里。
又例如,生活中许多事情,看上去很复杂,或许到头来也很简单,例如,
大学学习,与其掌握繁复的细枝末节,不如简单地记住完成手边的每一件事情;
人际交往,与其精通一些精巧的人情世故,不如简单的真诚待人;
编写程序,与其精通一些复杂的编程序调程序技巧,不如在当管理人员后简单地丢给手下码农去完成。
个别语句较为猥琐,个别语句比较二逼,见笑了~~~



