全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
7413 4
2014-03-24
背景:具体地探讨指标之间的关联性,大数据时代到来之际,相关关系的重要性也凸显出来,通过研究相关,可以为优化系统、决策研究做出参考建议。但是目前研究相关关系的方法比较多,需要做出比较研究。
数据源:公司内部数据,有Q1~Q10十个变量4000多条调查数据,不公开。

代码部分:

library("rJava")
source("MINE.r")
MINE("p1p6.csv","all.pairs" )

从而可以得出p1p6.csv这个数据集中Q1~Q10个变量之间的相关关系。



这个方法得出的结果发现,最高的MIC数值为0.12584。结果并不理想。


X varY varMIC (strength)MIC-p^2 (nonlinearity)MAS (non-monotonicity)MEV (functionality)MCN (complexity)Linear regression (p)

q4q3

0.12584

-0.019400075

0.019339994

0.12584

3.5849626

0.38110375

q7q6

0.1198

0.003586866

0.009350002

0.1198

4.5849624

0.34090048

q2q1

0.11177

-0.058614813

0.013419993

0.11174

4.169925

0.41277695

q5q2

0.10986

-0.01018548

0.02493

0.10986

4.169925

0.3464758

q4q2

0.1087

0.017092653

0.003200002

0.1087

4.169925

0.30266705

q7q2

0.10201

-0.003853403

0.002759993

0.10201

4.169925

0.32536656

q8q7

0.0955

-0.007174283

0.006820001

0.0955

7.2094536

0.32042828

q7q5

0.09192

-0.026152901

0.021470003

0.09192

7.2094536

0.34361738

q7q4

0.09113

-1.40E-04

0.014250003

0.09113

4.4594316

0.30210853

q3q1

0.08929

0.015379466

0.020099998

0.08929

4.5849624

0.27186492

q8q6

0.08618

0.046687294

0.027779996

0.08618

4.5849624

0.19872773

q5q4

0.07966

-0.03884176

0.011100002

0.07966

4.4594316

0.34424084

q3q2

0.07871

-0.023748316

0.01038

0.07871

4.5849624

0.3200911

q4q1

0.0755

-0.018166006

0.005109996

0.0755

4.70044

0.30604902

q8q2

0.07395

-0.010703079

0.008299999

0.07395

4.169925

0.29095203

q7q3

0.07063

-0.010072008

0.01038

0.07063

4.5849624

0.28408098


只显示大于0.07的结果。
Spearman相关系数:对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。使用SPSS20.0对p1p6.csv这个数据集中Q1~Q10进行spearman相关系数相关系数分析。

可以初步得知,两种方法所的结果是基本一致的,但是数值的差异性很大。Spearman系数数值明显大些,结果更好看些。
变量1变量2MICSpearman
q4q3

0.12584

0.426

q7q6

0.1198

0.423

q2q1

0.11177

0.436

q5q2

0.10986

0.385

q4q2

0.1087

0.299

q7q2

0.10201

0.38

q8q7

0.0955

0.319

q7q5

0.09192

0.358

q7q4

0.09113

0.347

q3q1

0.08929

0.282

q8q6

0.08618

0.186

q5q4

0.07966

0.324

q3q2

0.07871

0.308

q4q1

0.0755

0.292

q8q2

0.07395

0.296

q7q3

0.07063

0.299


以上是两种方法的相关系数数值,其中Spearman系数P值<0.01。
对其两种相关性结果进行相关性检验,其中Pearson系数为0.715,Spearman系数为0.764,P值均小于0.01。

结论:
初步分析可以得出,MIC数值并不是万能的,在商业领域的应用还是有待进一步挖掘。MIC相关其结果有相当可靠性,但是与其他算法有一定出入。需要进一步研究讨论。



此外分享一下,R微博的抓数研究的相关资料。
Rweibo_Vignette_CN.pdf
大小:(642.17 KB)

只需: 50 个论坛币  马上下载




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-3-24 15:32:08
希望大家多多探讨啊。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-24 10:33:29
发现此方法的作者David N. Reshef 所运用ApproxMaxMI的方法有一些瑕疵。你可以参考一下A Novel Algorithm for the Precise Calculation of the Maximal Information Coefficient这篇论文。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-4-24 19:26:46
你得到的MI小是因为这是个绝对值 应该算归一化MI 最简单的就是NMI=MI/max(H1,H2)
H1 H2 是研究的两者的信息量(熵) 都小于1,算绝对值自然就小了 这样的话 spearman系数自然就显得大了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-2-24 14:27:10
要是免费就好了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群