数据集+主成分分析+主成分得分+特征值和特征向量隐藏的秘密
1、数据集
文档排版有问题,可以下载附件,,假设有一个数据框a,num是样本序号,var1-var4是四个变量
2、主成分分析
对四个变量进行主成分分析
Standard deviation 表示特征根的开方,Proportion表示主成分的贡献率,也就是,比如第1个特征值的贡献率0.6749 = 2.69946764 / (2.69946764+0.95127608+0.32758452+0.02167176)。
可以看出前两个主成分已经贡献了90%以上,可以保留两个主成分
loadings表示主成分的系数矩阵
3、主成分得分
那么主成分得分是怎么来的呢?
先对原始变量进行标准化,然后乘以相应的特征向量就是主成分
4、特征值和特征向量隐藏的秘密
主成分变量对应的特征向量的每个元素,与对应的特征值的平方根的乘积,等于该主成分变量,与该元素列标签对应的原始变量之间的相关系数。
这是特征值与特征向量隐藏的秘密,可以用矩阵代数严格推导出来。不过这句话读起来比较费劲,我们用图8来表示这一关系。
图中的eigVec1至eigVec4是4个特征向量,对应的特征值分别为eigVal1至eigVal4。我们在每个列中进行操作,用特征向量每个元素分别乘以对应特征值的平方根,得到该主成分变量与所有原始变量的相关系数。
