全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
16212 10
2012-03-08
小弟新学SAS,距离大一学高代已经过去好几年了,对于特征值的实际意义不是很清楚。
程序是下面的:
data notes;
input prenom $ maths sciences francais latin art;
cards;
Jean 6 6 5 6.5 8
Pierre 8 8 8 8 9
Andre 6 7 11 9.6 11
Jacques 14 14.5 15.5 15 8
Didier 14 14 12 12.5 10
Serge 11 10 5.5 7 13
Alain 5.5 7 14 11.5 10
Eric 13 12.5 8.5 9.5 12
;
Run;

Proc Princomp data=notes out=b outstat=c vardef=n;
var maths sciences francais latin art;
Run;



运行以后得到协方差矩阵
[td]
Correlation Matrix
mathssciencesfrancaislatinart
maths 1.0000 0.9794 0.2283 0.5035 0.1549
sciences 0.9794 1.0000 0.4175 0.6658 0.0729
francais 0.2283 0.4175 1.0000 0.9472 -.2978
latin 0.5035 0.6658 0.9472 1.0000 -.3086
art 0.1549 0.0729 -.2978 -.3086 1.0000



[td]
Eigenvalues of the Correlation Matrix
EigenvalueDifferenceProportionCumulative
1 2.90770984 1.44548657 0.5815 0.5815
2 1.46222327 0.83555765 0.2924 0.8740
3 0.62666562 0.62364689 0.1253 0.9993
4 0.00301873 0.00263619 0.0006 0.9999
5 0.00038254 0.0001 1.0000


我不明白这个特征值象征的意义是什么,这个2.90770984是最大的,说明了什么呢?他们之间的差是什么意思呢?

还有这个特征向量
[td]
Eigenvectors
Prin1Prin2Prin3Prin4Prin5
maths 0.458490 0.468425 -.328490 0.213198 0.645760
sciences 0.522021 0.348218 -.219209 0.035019 -.746297
francais 0.456383 -.409539 0.485889 0.622647 0.014640
latin 0.546348 -.261715 0.219551 -.747700 0.160472
art -.102466 0.650465 0.748165 -.081092 0.008268


这样说每一门学科都有一个5维的向量,这个向量的方向有什么意义?

谢谢大家啦!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-3-8 03:43:19
我也刚学sas。我就按照spss的理解 一般的标准是 Eigenvalue大于一的话就是principal component,看有几个数值是大于1的。建议楼主可以看看PCA(principal component analysis)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-8 06:43:50
我查到了一点,好像为了选取最优的特征向量,选取特征值最大的几个(一般选的几个要占所有特征值总和的85%以上)所对应的特征向量来建立新的正交坐标系。

那按理说我应该选特征值为2.9和1.46所对应的特征向量了,意思就是选取PRIN1和PRIN2么?
我算了下那些5维向量的乘积确实是0,说明垂直。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-8 09:22:49
楼主,首先,PCA是一种简化数据集的技术,也就是利用PCA对原数据集进行降维。
对于你的问题,我的理解是:
1.我不明白这个特征值象征的意义是什么,这个2.90770984是最大的,说明了什么呢?他们之间的差是什么意思呢?
特征值的作用是为了选取最优的特征向量,然后再观察一下累计贡献率,如果累计贡献率大于80,那基本上可以决定拿几个特征向量是最有特征向量了(prin1 prin2)
2.这样说每一门学科都有一个5维的向量,这个向量的方向有什么意义?
这个矩阵是特征值对应的特征向量,根据这些特征向量,可以找到特征值和每个变量之间的关系,比如说prin1和各个变量除art外均呈正相关,与science以及latin得相关性最大;

如果有什么问题,欢迎交流哈~
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-8 09:34:24
也就是说,第一个主成分主要用来解释latin以及sciences,第二个主成分主要用来解释maths, francais以及art
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-9 02:44:15
sunset1986 发表于 2012-3-8 09:34
也就是说,第一个主成分主要用来解释latin以及sciences,第二个主成分主要用来解释maths, francais以及art
谢谢根据你的回答我又去详细了解了一下,明了了不少。
但是有些东西是我自己理解的,不知道对不对,所以请您看一下我的表述,如果有问题请指出,谢谢!

首先我一开始并不知道这个贡献是什么,后来知道原来一个变量的方差大说明所含信息多,所以要选方差大的。

再就是求得特征向量PRIN1 PRIN2之后就可以对每个人的5门课成绩进行线性变换了。
比如对于JEAN,他5门课的成绩是(6 6 5 6.5 8)
用矩阵PRIN1*(6 6 5 6.5 8)得到的Y1就可以作为他综合成绩中比重最大的一部分了(占58%因为特征值1占所有特征值总和的约58%)
但由于PRIN1中ART为负,所以在这个特征向量里没能很好的体现出ART在综合成绩中的比重,所以还需要用到PRIN2(否则就相当于ART考得越高,综合成绩反而会减少)
最后把Y1和Y2,Y3,Y4,Y5分别乘上他们特征值的比重相加得到总的综合成绩。

不知道这样理解可以么?
这么说PCA的主要目的就是综合评定么?(比如各个公司的竞争力,城市生活质量的指数……因为看到的例子都是这些)
还有些别的应用么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群