全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
4047 2
2012-01-12

常见的相关系数
        1.简单相关系数: 两个随机变量Y与X
        2.多重相关(复相关系数):一个随机变量Y与一组随机变量X1,X2,…, Xp
        3.典型(则)相关系数:一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp

       典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相关系数的特例,是研究两组变量之间相关性的一种统计分析方法。也是一种降维技术。
        由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsagar (1972)和 Mardia, Kent, and Bibby (1979) 推动了它的应用。

定义:典型相关是在每组变量中找出变量的一个线性组合,使得两组的线性组合之间具有最大的相关系数。然后,选取相关系数仅次于第一对线性组合并且与第一对线性组合不相关的第二对线性组合,如此继续下去,直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。


典型相关系数的特点
        1.两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变)
        2.第一对典则相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,

典型变量与原变量的亲疏关系
        1.与原变量间的相关程度和典型变量系数有关。
        2.原变量与自已的典则变量,原变量与对方的典则变量之间的相关系数。

典型变量的冗余分析(Canonical Redundancy Analysis)
        该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展。
        以原变量与典型变量间相关为基础。
        通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。


示例

这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长l和头宽w,资料见下面的数据步,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性。


data data1;
input l1 w1 l2 w2;
cards;
191 155 179 145
183 153 188 149
189 150 190 149
192 150 187 151
174 150 185 152
163 137 161 130
181 145 182 146
174 143 178 147
190 163 187 150
195 149 201 152
176 144 171 142
197 159 189 152
179 158 186 148
190 159 195 157
195 155 183 158
175 140 165 137
176 139 176 143
181 148 185 149
208 157 192 152
188 152 197 159
183 147 174 147
188 151 187 158
186 153 173 148
192 154 185 152
197 167 200 158
;
run;
PROC CANCORR data=data1 ALL   VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2;
      VAR w1 l1;
      WITH w2 l2;
RUN;


SAS结果解释

------------------------------
SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 101

The CANCORR Procedure
典型相关过程

指标描述
VAR Variables              2
WITH Variables             2
Observations              25


     Means and Standard Deviations
数据一般性描述
                                Standard
Variable            Mean       Deviation

w1            151.120000        7.372923
l1            185.720000        9.761830
w2            149.240000        6.709943
l2            183.840000       10.040252

SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 102

The CANCORR Procedure

Correlations Among the original Variables
原始数据的相关性分析

Correlations Among the VAR Variables

                  w1                l1

w1            1.0000            0.7346
l1            0.7346            1.0000

Correlations Among the WITH Variables

                  w2                l2

w2            1.0000            0.8393
l2            0.8393            1.0000

Correlations Between the VAR Variables and the WITH Variables

                  w2                l2

w1            0.7086            0.6932
l1            0.7040            0.7108


SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 103

The CANCORR Procedure

Canonical Correlation Analysis
典型相关系数
                              Adjusted    Approximate        Squared
              Canonical      Canonical       Standard      Canonical
            Correlation    Correlation          Error    Correlation

       1       0.788508       0.774698       0.077211       0.621745
       2       0.053740        .             0.203535       0.002888


典型相关系数的检验
                                                                         Test of H0: The canonical correlations in the
                           Eigenvalues of Inv(E)*H                          current row and all that follow are zero
                             = CanRsq/(1-CanRsq)
                                                                    Likelihood    Approximate
            Eigenvalue    Difference    Proportion    Cumulative         Ratio        F Value    Num DF    Den DF    Pr > F

       1        1.6437        1.6408        0.9982        0.9982    0.37716288           6.60         4        42    0.0003
       2        0.0029                      0.0018        1.0000    0.99711204           0.06         1        22    0.8031


典型相关系数-整体的检验
                 Multivariate Statistics and F Approximations

                            S=2    M=-0.5    N=9.5

Statistic                        Value    F Value    Num DF    Den DF    Pr > F

Wilks' Lambda               0.37716288       6.60         4        42    0.0003
Pillai's Trace              0.62463269       5.00         4        44    0.0021
Hotelling-Lawley Trace      1.64661365       8.53         4    24.198    0.0002
Roy's Greatest Root         1.64371733      18.08         2        22    <.0001

         NOTE: F Statistic for Roy's Greatest Root is an upper bound.
                 NOTE: F Statistic for Wilks' Lambda is exact.


SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 104

The CANCORR Procedure

Canonical Correlation Analysis
回归系数

Raw Canonical Coefficients for the VAR Variables
原始数据的回归系数
                  u1                u2

w1      0.0707368313      -0.186949603
l1      0.0565661954      0.1399710926

Raw Canonical Coefficients for the WITH Variables

                  v1                v2

w2      0.0802223988      -0.262083564
l2      0.0502425983      0.1761479388


SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 105

The CANCORR Procedure

Canonical Correlation Analysis
标准化后数据的回归系数
Standardized Canonical Coefficients for the VAR Variables

              u1            u2

w1        0.5215       -1.3784
l1        0.5522        1.3664

Standardized Canonical Coefficients for the WITH Variables

              v1            v2

w2        0.5383       -1.7586
l2        0.5044        1.7686


SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 106

The CANCORR Procedure

Canonical Structure
典型结构分析
Correlations Between the VAR Variables and Their Canonical Variables
原始变量与典型相关变量之间的相关系数

              u1            u2

w1        0.9272       -0.3747
l1        0.9353        0.3539

Correlations Between the WITH Variables and Their Canonical Variables

              v1            v2

w2        0.9616       -0.2743
l2        0.9562        0.2927

Correlations Between the VAR Variables and the Canonical Variables of the WITH Variables

              v1            v2

w1        0.7311       -0.0201
l1        0.7375        0.0190

Correlations Between the WITH Variables and the Canonical Variables of the VAR Variables

              u1            u2

w2        0.7583       -0.0147
l2        0.7540        0.0157


SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 107

The CANCORR Procedure

Canonical Redundancy Analysis
典型相关系数的解释能力
粗                 Raw Variance of the VAR Variables Explained by
                     Their Own                               The Opposite
                Canonical Variables                       Canonical Variables
Canonical
Variable                  Cumulative     Canonical                  Cumulative
   Number    Proportion    Proportion      R-Square    Proportion    Proportion

        1        0.8693        0.8693        0.6217        0.5405        0.5405
        2        0.1307        1.0000        0.0029        0.0004        0.5408


                Raw Variance of the WITH Variables Explained by
                     Their Own                               The Opposite
                Canonical Variables                       Canonical Variables
Canonical
Variable                  Cumulative     Canonical                  Cumulative
   Number    Proportion    Proportion      R-Square    Proportion    Proportion

        1        0.9176        0.9176        0.6217        0.5705        0.5705
        2        0.0824        1.0000        0.0029        0.0002        0.5707
SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 108

The CANCORR Procedure

Canonical Redundancy Analysis
标准化后
            Standardized Variance of the VAR Variables Explained by
                     Their Own                               The Opposite
                Canonical Variables                       Canonical Variables
Canonical
Variable                  Cumulative     Canonical                  Cumulative
   Number    Proportion    Proportion      R-Square    Proportion    Proportion

        1        0.8672        0.8672        0.6217        0.5392        0.5392
        2        0.1328        1.0000        0.0029        0.0004        0.5396


            Standardized Variance of the WITH Variables Explained by
                     Their Own                               The Opposite
                Canonical Variables                       Canonical Variables
Canonical
Variable                  Cumulative     Canonical                  Cumulative
   Number    Proportion    Proportion      R-Square    Proportion    Proportion

        1        0.9195        0.9195        0.6217        0.5717        0.5717
        2        0.0805        1.0000        0.0029        0.0002        0.5720
SAS 系统                                                                         2009年05月28日 星期四 下午12时22分26秒 109

The CANCORR Procedure

Canonical Redundancy Analysis

Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables

M              1             2

w1        0.5345        0.5349
l1        0.5439        0.5442

Squared Multiple Correlations Between the WITH Variables and the First M Canonical Variables of the VAR Variables

M              1             2

w2        0.5750        0.5752
l2        0.5685        0.5687

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-1-14 06:17:58
学习了.   谢谢!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-7-10 17:25:09
学习了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群