个相关分析中遇到的问题:如果两个变量在理论假设里是有相关关系的,当这两个变量是定比变量的时候,对二者做相关分析,皮尔逊相关系数为0.065,双侧显著性检验P<0.001,这怎么解释呢?有的人说相关系数小于0.4就说明没有相关性,而有的人说显著性检验显著,就说明两个变量有相关关系,并且两者的相关比较显著。而当两个变量为定序变量的时候,相关系数同样非常小(小于0.1),但显著性检验依然是显著相关的。这样的情况怎么取舍呢?如何解释呢?
简言之,相关是否显著与标准差,N有关系。所以,皮尔逊相关系数为0.065仍为显著相关不奇怪。那可以说两个变量之间有线形相关吗?若要真正弄懂上述问题,需要全面了解在解释两(或多)个变量关系时必须考虑的四个基本问题:
  
1. 关系的显著性:指两(或多)变量之间关系的统计显著水平,一般要求p<0.05。这是解释的第一步,如果不显著(p>0.05)、不管其相关系数(回归系数或其它描述关系强度的统计量)多强(这在小样本的情况下会发生),都没有继续讨论的意义,因为在总体中这种关系存在的可能性很低,如接受这种关系的风险太大(即Type I错误)。
2. 关系的强度:指相关系数(或其它类似统计量)的大小。以相关系数为例,一般认为0.3以下为弱相关、0.3-0.7之间为中相关、0.7-1.0为强相关。这种分类也适用于其它标准化统计量(如标准回归系数, standardized regression coefficient,在SPSS中叫BETA)。大家知道,这些标准化的统计量的平方描述了两(或多)个变量之间的重合部分(如回归模型R2描述了自变量对因变量的解释部分),从那个角度来看,弱相关的变量之间的重合不到10%、中相关变量之间的重合在10-50%,强相关变量之间的重合在50%以上。
3. 关系的方向:指相关系数(或其它类似统计量)的正负符号。如果原先的假设是单尾(one-tailed),如“上网会减少社交时间”、“上网会增加孤独感”等,那么其相关系数的方向就十分重要。(从可证伪性原则来看,单尾假设比双尾假设更好。)当一对变量的关系是显著并强烈、但是其方向与假设相反,该研究假设也必须被拒绝。当然研究者应该深入分析这种情况为何会发生。
4. 关系的形式:指变量之间的关系是线性(linear)还是非线性(nonlinear)。上述统计量描述的都是线性关系,如果不显著、显著而弱、显著并强烈但反方向,也许其真正的关系不是线性而是非线性,所以我们不能简单地收工回家,而要探索其非线性关系。当然,后者更复杂、对于没有良好的理论和方法训练的研究者更是容易掉进种种陷阱。以后有时间专门写个有关帖子。这里只想提醒大家,当你“山穷水尽疑无路”时,考虑一下非线性关系也许(just maybe)会有“柳暗花明又一村”之效。