有人也许会问,检验信度不是已经有Cronbach’s alpha,为什么还要用ICC?这与被检验的变量之性质有关。我们通常检验的“信度”是指 the consistency between two or more concepts(两个或更多概念之间的一致性),这时我们确实是用Cronbach’s alpha,其实alpha只是根据Pearson r(即经典的相关系数)而计算出来的衍生物,而Pearson r 则是一种Interclass Correlation Coefficient(注意其中的“Interclass”,即“组间相关系数”,与ICC是相反的一对统计量)。相反,如果我们想检验的信度,涉及到的却是 the stability between two or more measures of the same concept(同一个概念的两个或多个测量指标之间的稳定性),这时Pearson r及其衍生物Cronbach’s alpha不不合适了(参见我的旧贴Difference vs. Correlation,虽然文中没有出现组间和组内相关的名词,但谈到的是同一问题),而可以用ICC。你面临的“健康行为”的“重测信度”,就是涉及一个概念(健康行为)的两个测量指标。内容分析中的inter-coder reliability也是一个概念(即内容分析的某个变量)的多个coders决策之间的稳定性。
顺便提一下,在ICC研究的文献中,上述“同一个概念的不同测量”是被叫做“different variables of a common class”。这里所涉及到的名词,如class,cases, variable(以及可能会出现的measurements, raters, judges, items, objects等等),如果翻成中文、都很容易产生望文生义的误导。不知你的迷惑,是否与这些名词有所关系?我一开始接触有关文献时,也曾迷惑过,后来把 ICC的公式(右下)与Pearson r公式(左下)比较一下,就清楚了这些名词的真正含义。所以,我们还是不能不看公式。
回到图a的常见数据。如上所说,它可以用来同时分解columns 和rows的影响,也就是ICC(2) 和 ICC(3) 所需要的数据。所以ICC(1) 和 ICC(2) 都可以用来检验重测信度。两者的区别在于如何看待我开始时说的“同一概念的各种测量指标”的产生机制。这不是一个统计问题、而是研究设计问题或数据采集方法问题,即取决于每个研究的具体情况。一般而言,如果X1和X2是该概念的所有可能测量指标(最极端的例子是“匹配”样本,如夫妻、双胞胎、师生、上下级等“对子”对同一问题的回答),那么它们应该是fixed。反之,如果该概念除了Xk和X2之外,还可以有X3、… Xk指标,那么它们应该是random的。同理,检验在内容分析的inter-coder reliability时,coders应该都是从一个理论上无限大的总体中抽出来的样本,所以也应该是random的。你说你的两次测试是“two same judges in different time with fixed effect”,我没有足够信息来否定你,但直觉上感到它们是无限空间中的两个时间样本点,所以为什么不是random的?
除了between-columns effects的不同选择之外,ICC还涉及其它两个层面的选择,一是估算的ICC是consistency还是absolute agreement(两者的差别就是我上面提到的旧帖中描述的correlation与difference),二是single 还是average。这些分别涉及到一些新的问题,暂且不谈了。, 如果谁真的要用ICC,应该认真读一下ICC的权威文献:K. O. McGraw & S. P. Wong (1996). Forming inferences about some intraclass correlation coefficients、以及该文的纠错补充。