全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
2470 0
2021-04-30
介绍
典型相关分析(canonical correlation analysis)是研究两组变量之间相关关系的多元分析方法。它借用主成分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系。典型相关分析的思想首先由Hotelling于1936年提出,计算机的发展解决了典型相关分析在应用中计算方面的困难,目前成为普遍应用的进行两组变量之间相关性分析的技术。

统计思想
典型相关分析研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。所研究的两组变量可以是一组变量是自变量,而另一组变量是因变量的情况,两组变量也可以处于同等的地位,但典型相关分析要求两组变量都至少是间隔尺度的。
典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量能代表原始变量大部分的信息,同时,与由另一组变量生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对,第三对,…,使得各对典型相关变量之间互不相关,典型相关变量之间的简单相关系数称为典型相关系数,典型相关分析就是用典型相关系数衡量两组变量之间的相关性。

理论
太过复杂,当然啦,我们主要会用就行

方法
可以用spss软件进行操作,具体步骤可以参考 张大千09老师(https://blog.csdn.net/weixin_43756456/article/details/85625287),也是比较简单的,都是傻瓜操作。

一些小点
样本大小的影响和每个变量需要足够的观测都是典型相关分析经常遇到的。研究者容易使自变量组和因变量组包含很多的变量,而没有认识到样本量的含义。小的样本不能很好的代表相关关系,这样掩盖了有意义的相关关系。建议研究者至少保持每个变量10个观测,以避免数据的“过度拟合”(这个很重要)。
线性假定影响典型相关分析的两个方面。首先,任意两个变量间的相关系数是基于线性关系的。如果这个关系不是线性的,一个或者两个变量需要变换。其次,典型相关是变量间的相关。如果关系不是线性的,典型相关分析将不能测量到这种关系(对数据是有要求的)。
典型相关分析能够包容任何没有严格正态性假定的度量变量。正态性是有意义的,因为它标准化了分布,允许变量间的更高程度的相关。但在严格意义上,如果变量的分布形式(比如高度偏态)不会降低与其他变量的相关关系,典型相关分析是可以包含这种非正态变量的。这就允许使用非正态变量。然而,对于每个典型函数的多元正态性的统计检验是必要的。由于多元正态性检验不一定可行,流行的准则是保证每个单变量的正态性。这样,尽管不严格要求正态性,建议所有变量都检验正态性,如有必要,对变量进行变换(结果会看起来更好看)。
一个研究问题包含5个自变量和3个因变量,可提取的典型函数的最大数目是3,再通过显著性水平确定具体的函数数量。
典型相关程度是通过相关系数的大小来衡量的。典型相关系数的平方表示一个典型变量通过另外一个典型变量所解释的方差比例,也可称作两个典型变量间共同方差的比例。典型相关系数的平方称作典型根或者特征值,这个指标比较重要。
三个准则结合使用来解释典型函数。这三个准则是(1)函数的统计显著性水平,(2)典型相关的大小,(3)两个数据集中方差解释的冗余测量。
主要
典型相关分析.ppt
大小:(1.41 MB)

只需: 2 个论坛币  马上下载

参数

(1)典型权重(标准化系数)standardized coefficients,(2)典型载荷(结构系数)canonical loadings,(3)典型交叉载荷canon-
ical cross-loadings
(1)典型权重。传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重的符号和大小。有较大的典型权重,则说明原始变量对它的典型变量贡献较大,反之则相反。原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有正面关系。但是这种解释遭到了很多批评。这些问题说明在解释典型相关的时候慎用典型权重。
(2)典型载荷。由于典型权重的缺陷,典型载荷逐步成为解释典型相关分析结果的基础。典型载荷,也称典型结构相关系数,是原始变量(自变量或者因变量)与它的典型变量间的简单线性相关系数。典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献。
(3)典型交叉载荷。它的提出是作为典型载荷的替代。计算典型交叉载荷包括使得每个原始因变量与自变量典型变量直接相关,反之亦然。交叉载荷提供了一个更直接的测量因变量组与自变量组关系的指标。
局限
(1)典型相关反映变量组的线性组合所共享的方差,而不是从变量提取的方差。
(2)计算典型函数推导的典型权重有较大的不稳定性。
(3)推导的典型权重是最大化线性组合间的相关关系,而不是提取的方差。
(4)典型变量的解释可能会比较困难,因为它们是用来最大化线性关系的,没有类似于方差分析中变量旋转的有助于解释的工具。
(5)难以识别自变量和因变量的子集间有意义的关系,只能通过一些不充分的测量,比如载荷和交叉载荷。








二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群