相关系数指标
(1)连续变量的相关指标
用于衡量两类现象在发展变化的方向与大小方面存在一定的关联(不包括因果和共变关系)。
最常用的是积差相关:
注: 表示变量 的均值; 表示变量 的均值; 取值范围[-1 1]。
1表示完全正相关,0表示没有相关,-1表示完全负相关。
该相关系数是最常用的指标,也几乎是所有统计模型的基础(主要强调横截面数据),可见其重要性,但该指标容易受到样本量的影响,通常我们认为样本量越大,抽样误差越小,则置信区间就会变窄,所以检验统计量更容易落入小概率事件的区域(人为设定)。
(2)有序分类的相关指标
一致对子数表示行变量等级高的,列变量等级相应也高,P表示两倍的一致对子数; Q表示两倍的不一致对子数。
l Gamma指标,取值[-1 1]
l Kendall′s Tau-b指标,取值[-1 1]。
Kendall′s Tau-c是在此基础上的矫正。
l Somers′d
表示x为自变量,y为因变量的情况, 在y方向上的一致对子数。
(3)无序分类的相关指标
l 相依系数指标:
注: 表示总样本,取值[0 1]。
l Phi和Cramer′s V指标
Phi的公式:
在4格表里取值[0 1],而在其他列联表里没有上限。
Cramer′s V是Phi的调整:
取值在[0 1]。
行列(r-1)(c-1)取最小值。
l lambda系数
用于反应自变量对因变量的预测效果。
注: 是每一类x中,y分布的众数次数; 为y次数分布的众数次数。取值介于[0 1],1表示自变量可以完全准确预测因变量,0表示自变量无法预测因变量。
l 不确定系数
与lambda系数相似,用于说明自变量对因变量预测的不确定性,以熵为不确定性大小的度量指标。
注:张文彤,2011;spss20.