全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 MATLAB等数学软件专版
19308 168
2014-10-14

(你Know与不Know,它就在那里)





〈摘 要〉


    截止今天为止,金正恩将军正式出山,在这之前有一篇用统计方法分析其可能性的好文章(出自统计论坛),请各路老师指点。


    新华网北京10月14日电 据新华社“新国际”微博报道,朝中社14日早晨报道,朝鲜领导人金正恩前往一处新建成的居住区视察,但并未说明视察的日期。这是金正恩9月3日观看牡丹峰乐团新作音乐会之后,首次公开露面,期间他缺席了一系列重要活动。朝方曾于9月26日承认金正恩身体不适。


540f3d8623213bf.jpg






〈正 文〉



     10日,朝鲜劳动党迎来建党69周年。不过,朝鲜最高领导人金正恩并未如同外界预想的那样现身拜谒锦绣山太阳宫。金正恩最近一次露面是9月3日,在随后的38天内,朝鲜政局、外交虽然都发生了一系列变化,但金正恩一直没有公开露面,有关金正恩健康和去向的猜测不绝于耳。



     金正恩到底去哪了?几乎每周都出现在各大世界级媒体头条的金胖胖就这么神乎其神的消失了?全世界人民都震惊啦,可爱的金胖胖怎么就这么消失了呢?美国的FBI找不到,以色列的摩萨德也不知下落,韩国的UDU也蒙圈了,就连俄罗斯的克伯格和中国的中南海保镖也疯啦,于是各大媒体开始了疯狂的猜谜游戏,各种报道充斥着互联网。到底金胖胖去哪了呢?今天我们通过乐动信度的大数据分析帮大家找出金胖子的最有可能下落。


0.jpeg


     众所周知我们消息的来源主要有这么几个途径:电视新闻、报纸杂志、互联网和移动互联网,然而我们面对的信息量越多我们就会越迷茫。本人每周定期会发几篇文章,每次苦于没有素材在网上寻个半天,发现思路更是迷茫,于是乎还不如自己苦憋呢,但今天我们改下风格,我们就充分利用下互联网,通过我们的乐信指数调取了和“金正恩消失”5个字相关的所有文章,检索出十个出新频率最高的词汇,通过我们乐动信度进行分析,现将分析结果呈上,供大家参阅。


     数据来源:数据来源于46家资讯平台,其中国内媒体资讯29家,港澳台及外媒(有汉语版)17家,通过乐动数据挖掘提取10组关键词,现将关键词指标体系列出:


1.png




     将跟“金正恩消失”相关的10个关键词首先认为分为不利关键词与利好关键词两组。不利关键词中又分为了朝内不利与外部不利两项指标,分别表示信息中传递出的朝鲜内部对金胖胖的不利信息,朝鲜外部对于金胖胖的不利信息。朝内不利多报道称金胖胖被以黄炳誓、崔海龙等软禁,最近又传出金汝静掌权的消息。朝外不利信息中有传言金正恩病危(本身有心脏病),被国外势力暗杀,或者被其他组织胁迫等消息。利好消息也按照这种分法分成了外部利好,传言金正恩在训练过程中亲自参与,导致腿部疾病,被迫到俄罗斯就医,更有消息称金正恩是去国外减肥了,为了成为一个长腿欧巴,不过金正恩确实身体过度肥胖,加之其本身的心脏病,减肥也是正常选择。内部利好消息则指出金正恩的独特外交政策,或者是无意的不出现在公众面前以展示其影响力。




    注:如果你是大神,请关注数据处理过程,欢迎赐教,如果不懂数据,请关注蓝字部分。



     任何消息都是我们接受的二手信息,甚至三手信息,如何分析其准确性与可信度成为了我们的难题,据传言中国文字记录的历史真实程度仅有5%,那我们接受的关于金正恩的正确信息恐怕连1%都没有吧,就像马航事件,我们老百姓永远可能不知道最终真相,但领导阶层恐怕早就知晓。我们通过分析关键词指数与评论数,通过乐信标准化公式算出最原始信息量。



对于利好关键词指标:


001.png

对于不利关键词指标:


002.png



将标准化数据进行分析,为了展示不同大数据算法的准确性,我们将通过三种算法分别估算指标体系,既通过不同的算法算出金胖子最有可能的结果,并通过结果分析出信度最高的媒体。


2.png




熵权法处理


3.png


      从熵权法的测试结果中我们可以看到,利好消息与不利消息基本持平,利好消息略好于不利消息,说明中朝人民的友谊还是有的。不利消息中,外部不利消息要居多,最近最不正常的一次外交当属朝鲜高官多次秘密出访,很容易被媒体分析为朝鲜高官外出寻找政治大腿的行动。在利好消息层面,可以看到内部利好要大于内部不利,金正恩在国内的可能还是要大于外出的可能,毕竟还是国内安全,也可以看出最近虽然外部各种消息疯传,但朝鲜内部未见明显变动,朝鲜军队基本上比较安定。


这个过程是通过上述测算出的乐信指标权重计算各大媒体的资信力,列举出最受信的前10名:


4.png



     这些媒体平台是通过乐信熵权法测算出的可信度前5名。






主成分分析


    为了便于观众比较,我们再次利用主成分分析法处理



    (1)这里我们运用SPSS18对数据进行主成分分析,系统默认采取的Z-Score标准化公式消除了指标的负向影响,必须将标准化后数据代入处理。表5给出KMO检验和Bartlett’s球度检验结果,KMO=0.594,接近Kaiser的0.6标准,并且Bartlett球度检验伴随概率为0.00,小于显著性水平0.05,拒绝Bartlett球度零假设,认为可以进行主成分分析。


5.png



(2)运用SPSS做主成分分析,计算特征值和累计贡献率,结果见表6和表7。


6.png


7.png




     在处理过程中,选取特征值≥1,共提取5个主成分,累计贡献率为79.197%。根据主成分负载矩阵定义各主成分,其中第一主成分可以定义为内部变动因素,可以看到对这一主成分产生影响的主要是内部政变或金胖子的身体疾病;第二主成分可以定义为外部影响主成分,可以看到对第二组主成分产生影响的主要是金正恩被暗杀或有意的外交行为;第三主成分为金胖子身体状况成分;第四主成分为内部政变主成分;第五主成分可以定义为修养主成分。



     通过主成分分析金胖子被政变的概率最大,其次是金正恩的身体状况,这也是目前媒体界最关注的两大块。



     (3)计算主成分得分。


8.png




     计算综合得分,具体结果见表


9.png







层次分析法



     以上大数据算法都是基于数据层结构的处理,我们特意邀请了10位学者专家进行分析,要求他们在层次分析法综合评价系统内部进行综合评判。



     计算权重


     选取国际新闻领域相关专家、10人组成评价小组,对准则层和指标层分别打分,将打分结构标准化,运用yaahp软件计算变量判断矩阵。


11.png


12.png


13.png


      这个东西就比较复杂了,估计一般的童鞋看不懂,我们简单来理解下就可以,好比你要买鞋子,你一个人不能做决定,要和你媳妇俩人商量,你们考虑的因素是价格、舒适度两个指标,于是你们俩开始商量。你认为价格比舒适度重要多少?你媳妇认为价格比舒适度重要多少?根据你们的选择我们通过一系列的算法来计算你们应该买耐克还是李宁。具体算法我们胜率,提出最后的结果,关键词中多数学者认可度较高的是金胖子被软禁了,或者金正恩故意消失,展示其独特的外交魅力。这两种观点也是目前媒体界认可度较高的两种说法,我们将运用层次分析法测算的最佳5个媒体列举出来:


14.png


     以上我们通过三种方法分别计算了金胖子最有可能的下落,我们将三种结果进行比较,通过相关性分析可以看出,三种数据处理方法的一致性较高,金正恩最有可能的三种结果分别是:


1、被以黄炳誓、崔海龙为首的军政要员软禁

2、身体不适,养病(可能是腿疾)

3、故意玩消失,展示其独特的外交手段


15.png




附件列表
10.png

原图尺寸 7.56 KB

10.png

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-10-14 13:17:12
楼主好伟大!哈哈哈
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-14 13:28:38
Nice !!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-14 13:49:57
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-14 13:50:50
挖掘技术强!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-10-14 13:53:20
挖掘机技术哪家强?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群