全部版块 我的主页
论坛 休闲区 十二区 休闲灌水
1796 1
2013-05-26

【背景】 昨天早晨开始,我就发现人人网上开始有一款新的应用——“人人心情总图”。顾名思义,这款应用可以根据用户的某些信息,经过一定的运算,反映出用户在一定时间内“心情”的变化。
        貌似大家都在玩,我也弄了一个:

        看了一下,觉得还是符合实际——图中有个太阳的地方,大致是2011年8月,当时我才来到美国,一些都很新鲜,自然情绪不错;图中进入2012年下半年后,我的“心情”一路下滑,这种下降趋势一直到2013年,直到最近才有好转——这也很符合实际情况,因为2012年下半年开始申请新的学校,身心备受煎熬,直到前几个才解放。我周围的同学也反应这款应用有些“符合实际”。

       【问题的提出】 我却为其计算的方法感到特别的好奇,究竟方法是什么??

       【提出假设】首先我想到的假设是,这款应用获取用户发表的状态(因为每个人虽然不发日志,基本上都发状态,而且状态便于处理),进行中文分词,提取出词语,然后对词语进行“情绪分析(sentimental analysis)”,然后综合评价,进行打分。

       关于“情绪分析”,多说几句,我不是这个专业的同学,只是略微知道一些实际使用实例。例如,2008年,有研究人员利用用户在几个月内发布的上百万条推特的数据,进行情绪分析之后,得出奥巴马会胜选;也有研究人员用推特研究用户对某一品牌的评价(文献不在这台电脑上……抱歉无法给出引用……)。

       【假设检验】要假设这个检验,我就需要发布一些包含正面、负面情感的状态,然后再进行“人人心情总图”测试。在美国东部时间2013年5月24日中午12点,北京时间5月25日凌晨零点,琢磨着大家已经睡觉,服务器已经空闲了,就开始了测试……

        测试1,我发布了一下状态:

       “快乐,快慰,欣慰,活泼,高兴,兴奋,乐观,乐呵呵,乐在其中,乐观,积极,梦想,坚持,希望,勇敢,愉快,喜悦,喜出望外,快活,欢快,欢乐,欢欣鼓舞,兴冲冲,甜蜜,甜甜的,骄傲,气爽,神清气爽,春风得意马蹄轻,纵情高歌,如释重负,笑眯眯,笑嘻嘻,笑呵呵,笑容可掬,笑得合不拢嘴,笑逐颜开,心花怒放,眉开眼笑,喜上眉梢,喜形于色,喜出望外,欣欣然,欣喜,欣慰,神采飞扬、happy,excited,joyful,optimistic, hopeful, energetic”

        这条状态明显一看就是正面情绪,满满正能量啊!然后再发布不久,同学们纷纷来到我的页面,以为我抽风,或者被盗号,或者表白被拒受刺激了。在了解情况之后,他们建议感叹号和人人网的表情可能也是影响因素。于是我接着进行了以下两次测试。

        测试2:我清除了测试1发布的内容,以免产生干扰,然后发布以下状态,测试感叹号的效果:

       “快乐!!!快慰!!!欣慰!!!活泼!!!高兴!!!兴奋!!!乐观!!!乐呵呵!!!乐在其中!!!乐观!!!积极!!!梦想!!!坚持!!!希望!!!勇敢!!!愉快!!!喜悦!!!喜出望外!!!快活!!!欢快!!!欢乐!!!欢欣鼓舞!!!兴冲冲!!!甜蜜!!!甜甜的!!!骄傲!!!气爽!!!神清气爽!!!春风得意马蹄轻!!!纵情高歌!!!如释重负!!!笑眯眯!!!笑嘻嘻!!!笑呵呵!!!笑容可掬!!!笑得合不拢嘴!!!笑逐颜开!!!心花怒放!!!眉开眼笑!!!喜上眉梢!!!喜形于色!!!喜出望外!!!欣欣然!!!欣喜!!!欣慰!!!神采飞扬、happy,excited,joyful,optimistic, hopeful, energetic”

        测试3:同样清除了测试2发布的内容,然后发布以下状态,测试表情的效果:

        “

        【测试结果】然后,三次结果和原来的结果完全一样……

        【结果分析】有同学说,或许这款应用的分析方法没有用到自然语言处理和情绪分析。我想一想,很有道理:1、这种分析方法处理速度很慢,我一共发了三千多条状态,估计逾十万字,不可能在短短一分钟时间内得出结果;2、情绪分析需要后台语料库,这个是要钱的;3、这款应用有一个叫“Michael Shang”的人完成。而这种方法,涉及自然语言处理,工作量很大,不太可能由一个人完成。例如大家使用过的“人人关键词”就是由清华自然语言处理的一个实验室完成的。

        有可能,有可能……这位开发人员,真是用了最简单的方法——就是数状态个数!简单数数!我突然想到,大家心情不好的时候,什么话的也不想说,或者是简单上人人网吐个槽;而心情好的时候,就会经常上人人网,转发,评论,忙个不停。

        【再次测试】于是……我就用手工的方式把自己从2011年1月至今,每个月发的状态数目统计了做了图……然后绘制成为下表。大家可以看到,基本上和“人人心情总图”的走势一致,连绝对数目都差不多……



         【结论】哎,弄了半天,我还以为多么复杂呢,结果就是一个通过计算每个月用户发布的状态的数目来计算所谓的“人人心情总图”,根本没有其它任何附加计算!

         【感想】花了我前后4个小时本来看书的时间,结果让我有些失望。想象中的复杂规律结果有些无厘头。不过生活中的事情大抵如此,原来觉得复杂无比的事情,到头来却简单至极:

         例如前段时间我看了一集TED视频,斯蒂文·沃尔夫用元胞自动机进行了演示,提出看上去纷繁复杂宇宙,其基本规则或许是相当简单的,视频在这里

        又例如,生活中许多事情,看上去很复杂,或许到头来也很简单,例如,

        大学学习,与其掌握繁复的细枝末节,不如简单地记住完成手边的每一件事情;

        人际交往,与其精通一些精巧的人情世故,不如简单的真诚待人;

        编写程序,与其精通一些复杂的编程序调程序技巧,不如在当管理人员后简单地丢给手下码农去完成。


        个别语句较为猥琐,个别语句比较二逼,见笑了~~~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-5-26 19:14:44
支持你这种求知精神,呵呵
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群