二元数据的相关性检验:Ruben(鲁宾)总体相关系数的区间估计
一般可以用样本估计量来估计总体参数,可以证明,当样本个数n充分大,样本之间的相关系数可以作为总体之间的估计,也就是说,当样本个数较大时,样本相关,总体也相关。但是当样本个数较少时,就无法得到相应的结论,现在的问题时:当样本个数n至少取到多少时,样本相关才能保证总体也相关?
Ruben(鲁宾)给出了总体相关系数的区间估计的近似逼近公式,设n为样本个数,r为样本相关系数,u是标准正态分布上的α/2分位点,即u=zα/2.


R:
> ruben.test<-function(n,r,alpha=0.05){
+ u<-qnorm(1-alpha/2)
+ r_start<-r/sqrt(1-r^2)
+ a<-2*n-3-u^2
+ b<-r_start*sqrt((2*n-3)*(2*n-5))
+ c<-(2*n-5-u^2)*r_start^2-2*u^2
+ y1<-(b-sqrt(b^2-a*c))/a
+ y2<-(b+sqrt(b^2-a*c))/a
+ data.frame(n=n,r=r,conf=1-alpha,L=y1/sqrt(1+y1^2),U=y2/sqrt(1+y2^2))
+ }
> ruben.test
function(n,r,alpha=0.05){
u<-qnorm(1-alpha/2)
r_start<-r/sqrt(1-r^2)
a<-2*n-3-u^2
b<-r_start*sqrt((2*n-3)*(2*n-5))
c<-(2*n-5-u^2)*r_start^2-2*u^2
y1<-(b-sqrt(b^2-a*c))/a
y2<-(b+sqrt(b^2-a*c))/a
data.frame(n=n,r=r,conf=1-alpha,L=y1/sqrt(1+y1^2),U=y2/sqrt(1+y2^2))
}
> ruben.test(n=25,r=0.7,alpha=0.05)#当样本数据为25个,相关系数为0.7时,可以得出置信区间为0.41-0.85,基本上能说总体也是相关的
n r conf L U
1 25 0.7 0.95 0.4108176 0.8535657