全部版块 我的主页
论坛 休闲区 十二区 跨学科讨论区
2333 4
2014-01-06

        有道是,数据是把杀猪刀,红了樱桃,绿了芭蕉;且看名人掐架,褒绿贬红,鹿死谁家。以前小方小韩掐架的时候,做过方韩大战的社会媒体挖掘,结果显示两败俱伤。

        据说由转基因之争引起的崔方大战是去年中文社会媒体的大事件,因此以小崔和小方两个话题的自动挖掘对照,应该可以反映这场大战的一个概貌,至少是一个侧面。

        挖掘的数据来源是目前在我们现有的 index 中的中文社会媒体(包括简体和繁体,因与内容商协商仍在进行中,数据并不完整,特别是微博数据。但是数据对于两位是一视同仁的。)另一个需要说明的是,挖掘系统仍处于 beta 阶段,bugs 在所难免,但是多次由第三方判别的质量检测(QA)显示,褒贬抽取的准确度均在 85% 以上。

挖掘区间是 2013 年元月五日 至 2014 年元月六号,整一年。

两位都是大名人,这次挖掘的相关数据量上相差不大,在八万到九万左右。但一年来总体褒贬指数(net sentiment)小崔(60度)远远高于小方(零度)。


看这些数据,主要是比较中鉴别,因为两人的曲线在同一个框架内,相对意义应该靠谱。自动系统即便不完善,社媒数据即便很混沌,但对二位是一视同仁的。







以上是两位的社会媒体形象在时间尺度上的曲线对比(按日、按周和按月来展示),其全貌和趋势比较清晰。


小方似乎习惯于单方面宣告胜利,说 (大意):经过方崔大战,方还是那个方,崔已不是那个崔(形象完了)。

上面的形象曲线图说明,不是这样的。虽然各有起伏,一年来小崔一直在小方之上,二者的差距并未明显缩小,大体呈平行势态。半年来大战日趋激烈,但是整体趋势并没有大的改变。小方还是那个小方,小崔也还是那个小崔。

由于双方的粉丝都很激烈,为免过度解读引起新的口水战,下面只提供数据,不再做解读。


(1)共现主题词:(字体大小与热议成正比)






(2)对二位的社会媒体情绪云图:(褒绿贬红;字体大小与热议成正比)






(3)褒贬理由的分布:(褒绿贬红;字体大小与热议成正比)




(4) 喜欢自有喜欢的理由:




(5)厌恶亦有厌恶的理由:



(6)所调查的数据来源种类:


(7)所调查的数据分布:


社交媒体样本:



DIsclaimer: still in beta, use at your own risk.  bug report is welcome.


                                                                          本文引自李维博客,

Simon Fraser University,博士,研究领域信息科学


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-1-8 15:33:49
大数据分析在中国很容易失败,原因是缺乏独立思考,跟风,叛逆,面子,起哄等唯心的思想行为太多。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-3-9 20:39:01
无知的问一下,图中那些汉子是怎么做出来的
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-3-27 10:27:33
太贵!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-6-16 16:07:20
哈哈学习了,非常受启发
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群