常见的相关系数
1.简单相关系数: 两个随机变量Y与X
2.多重相关(复相关系数):一个随机变量Y与一组随机变量X1,X2,…, Xp
3.典型(则)相关系数:一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp
典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例,是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。
由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。
定义:典型相关是在每组变量中找出变量的一个线性组合,使得两组的线性组合之间具有最大的相关系数。然后,选取相关系数仅次于第一对线性组合并且与第一对线性组合不相关的第二对线性组合,如此继续下去,直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。
典型相关系数的特点
1.两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)
2.第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,
典型变量与原变量的亲疏关系
1.与原变量间的相关程度和典型变量系数有关。
2.原变量与自已的典则变量,原变量与对方的典则变量之间的相关系数。
典型变量的冗余分析(Canonical Redundancy Analysis)
该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展。
以原变量与典型变量间相关为基础。
通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。
示例
这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长l和头宽w,资料见下面的数据步,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性。
data data1;
input l1 w1 l2 w2;
cards;
191 155 179 145
183 153 188 149
189 150 190 149
192 150 187 151
174 150 185 152
163 137 161 130
181 145 182 146
174 143 178 147
190 163 187 150
195 149 201 152
176 144 171 142
197 159 189 152
179 158 186 148
190 159 195 157
195 155 183 158
175 140 165 137
176 139 176 143
181 148 185 149
208 157 192 152
188 152 197 159
183 147 174 147
188 151 187 158
186 153 173 148
192 154 185 152
197 167 200 158
;
run;
PROC CANCORR data=data1 ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;
VAR w1 l1;
WITH w2 l2;
RUN;
SAS结果解释
------------------------------
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 101
The CANCORR Procedure
典型相关过程
指标描述
VAR Variables 2
WITH Variables 2
Observations 25
Means and Standard Deviations
数据一般性描述
Standard
Variable Mean Deviation
w1 151.120000 7.372923
l1 185.720000 9.761830
w2 149.240000 6.709943
l2 183.840000 10.040252
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 102
The CANCORR Procedure
Correlations Among the original Variables
原始数据的相关性分析
Correlations Among the VAR Variables
w1 l1
w1 1.0000 0.7346
l1 0.7346 1.0000
Correlations Among the WITH Variables
w2 l2
w2 1.0000 0.8393
l2 0.8393 1.0000
Correlations Between the VAR Variables and the WITH Variables
w2 l2
w1 0.7086 0.6932
l1 0.7040 0.7108
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 103
The CANCORR Procedure
Canonical Correlation Analysis
典型相关系数
Adjusted Approximate Squared
Canonical Canonical Standard Canonical
Correlation Correlation Error Correlation
1 0.788508 0.774698 0.077211 0.621745
2 0.053740 . 0.203535 0.002888
典型相关系数的检验
Test of H0: The canonical correlations in the
Eigenvalues of Inv(E)*H current row and all that follow are zero
= CanRsq/(1-CanRsq)
Likelihood Approximate
Eigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr > F
1 1.6437 1.6408 0.9982 0.9982 0.37716288 6.60 4 42 0.0003
2 0.0029 0.0018 1.0000 0.99711204 0.06 1 22 0.8031
典型相关系数-整体的检验
Multivariate Statistics and F Approximations
S=2 M=-0.5 N=9.5
Statistic Value F Value Num DF Den DF Pr > F
Wilks' Lambda 0.37716288 6.60 4 42 0.0003
Pillai's Trace 0.62463269 5.00 4 44 0.0021
Hotelling-Lawley Trace 1.64661365 8.53 4 24.198 0.0002
Roy's Greatest Root 1.64371733 18.08 2 22 <.0001
NOTE: F Statistic for Roy's Greatest Root is an upper bound.
NOTE: F Statistic for Wilks' Lambda is exact.
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 104
The CANCORR Procedure
Canonical Correlation Analysis
回归系数
Raw Canonical Coefficients for the VAR Variables
原始数据的回归系数
u1 u2
w1 0.0707368313 -0.186949603
l1 0.0565661954 0.1399710926
Raw Canonical Coefficients for the WITH Variables
v1 v2
w2 0.0802223988 -0.262083564
l2 0.0502425983 0.1761479388
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 105
The CANCORR Procedure
Canonical Correlation Analysis
标准化后数据的回归系数
Standardized Canonical Coefficients for the VAR Variables
u1 u2
w1 0.5215 -1.3784
l1 0.5522 1.3664
Standardized Canonical Coefficients for the WITH Variables
v1 v2
w2 0.5383 -1.7586
l2 0.5044 1.7686
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 106
The CANCORR Procedure
Canonical Structure
典型结构分析
Correlations Between the VAR Variables and Their Canonical Variables
原始变量与典型相关变量之间的相关系数
u1 u2
w1 0.9272 -0.3747
l1 0.9353 0.3539
Correlations Between the WITH Variables and Their Canonical Variables
v1 v2
w2 0.9616 -0.2743
l2 0.9562 0.2927
Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables
v1 v2
w1 0.7311 -0.0201
l1 0.7375 0.0190
Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables
u1 u2
w2 0.7583 -0.0147
l2 0.7540 0.0157
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 107
The CANCORR Procedure
Canonical Redundancy Analysis
典型相关系数的解释能力
粗 Raw Variance of the VAR Variables Explained by
Their Own The Opposite
Canonical Variables Canonical Variables
Canonical
Variable Cumulative Canonical Cumulative
Number Proportion Proportion R-Square Proportion Proportion
1 0.8693 0.8693 0.6217 0.5405 0.5405
2 0.1307 1.0000 0.0029 0.0004 0.5408
Raw Variance of the WITH Variables Explained by
Their Own The Opposite
Canonical Variables Canonical Variables
Canonical
Variable Cumulative Canonical Cumulative
Number Proportion Proportion R-Square Proportion Proportion
1 0.9176 0.9176 0.6217 0.5705 0.5705
2 0.0824 1.0000 0.0029 0.0002 0.5707
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 108
The CANCORR Procedure
Canonical Redundancy Analysis
标准化后
Standardized Variance of the VAR Variables Explained by
Their Own The Opposite
Canonical Variables Canonical Variables
Canonical
Variable Cumulative Canonical Cumulative
Number Proportion Proportion R-Square Proportion Proportion
1 0.8672 0.8672 0.6217 0.5392 0.5392
2 0.1328 1.0000 0.0029 0.0004 0.5396
Standardized Variance of the WITH Variables Explained by
Their Own The Opposite
Canonical Variables Canonical Variables
Canonical
Variable Cumulative Canonical Cumulative
Number Proportion Proportion R-Square Proportion Proportion
1 0.9195 0.9195 0.6217 0.5717 0.5717
2 0.0805 1.0000 0.0029 0.0002 0.5720
SAS 系统 2009年05月28日 星期四 下午12时22分26秒 109
The CANCORR Procedure
Canonical Redundancy Analysis
Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables
M 1 2
w1 0.5345 0.5349
l1 0.5439 0.5442
Squared Multiple Correlations Between the WITH Variables and the First M Canonical Variables of the VAR Variables
M 1 2
w2 0.5750 0.5752
l2 0.5685 0.5687

扫码加好友,拉您进群



收藏
