数据的格式大概是这样的:
公司 日期 lbpf lbpf aph conc stab1 stab2 pt1 pt2
1 08 2 40 32 1 2.2 11 7 80
1 08 3 38 31 1 1 19 9 91
2 08 5 39 91 3 4 20 11 44
2 09 5 22 21 5 4 19 3 23
3 08 6 24 33 4 5 10 2 51
3 09 7 29 54 4 6 11 2 33
因子分析以后发现了3个公因子,这是旋转后的因子分析结果:
Rotated Factor Pattern
Factor1 Factor2 Factor3
lbpf 0.96649 0.01561 -0.01374
lbph 0.94689 0.00973 -0.02323
aph 0.94040 0.11942 0.05957
cnoc 0.55547 0.20824 0.09777
stab2 0.11747 0.95714 -0.00190
stab1 0.11008 0.95437 0.02056
pt2 -0.01842 -0.23205 0.79740
pt1 0.10048 0.29078 0.75150
Standardized Scoring Coefficients
Factor1 Factor2 Factor3
lbpf 0.32802 -0.06938 0.03095
lbph 0.32236 -0.07338 0.03389
aph 0.31104 -0.01388 -0.00919
cnoc 0.17097 0.05962 -0.04519
stab1 -0.04120 0.51162 0.00458
stab2 -0.03844 0.51088 0.01068
pt2 0.00653 0.02624 0.65817
pt1 0.01159 -0.01350 0.65483
我现在需要将数据的因子得分进行K-means聚类分析。
第一个问题是,我是否可以将factor1的得分,作为每个公司在lbpf lbph aph cnoc四个变量上的得分, 将factor 2的得分作为公司在stab2 stab1上的得分, 将factor3的得分作为pt1 pt2的得分,带入聚类分析,将公司进行分类?
第二个问题是,stab1 stab2, pt1 pt2四个变量,都是用来衡量公司同一个方面的特征,但是pt1 pt2的值越高,公司该特征就越明显,而stab1 stab2的值越低,公司该特征越明显。我是否可以直接将factor1的得分与factor2的得分相加,作为公司在该特征方面的得分?还是应该将 stab1stab2改为1/stab1,1/stab2,这样1/stab1 2/stab1就和pt1 pt2一样,值越高,公司改特征越明显,然后再进行因子分析,将factor1 facort2的得分相加,衡量公司该方面的特征?
望有高手能解答,谢谢!
第一个问题,我的想法是:每个公司每年lbpf lbph aph cnoc这4个变量的得分,以公司1,08年为例,得分为: ( 0.32802*因子1的幻灯片 43特征 -0.06938*因子2的幻灯片 43特征值 + 0.03095*因子3的幻灯片 43特征值)*2+ ...........就是用各自的值,乘以3个因子的Scoring Coefficients再乘以3个因子的特征值,再求和,是否正确?