在刚刚结束的美赛中,我在主成分分析后曾考虑将各主成分得分与相应方差贡献率的乘积相加得到“综合得分”,并以此为依据给样本排序。相信大家也注意到了SAS的主成分分析和因子分析是不会计算所谓的“综合得分”的。然而我在本论坛的帖子和各种出处的论文里经常看到这样的计算方法,但是对其中的数学原理百思不得其解。这样计算出的综合得分究竟有什么数学意义?
我不敢将这种“综合得分”算法写进论文里,上网查了挺久,找到了《对主成分分析中综合得分方法的质疑》这篇论文,深以为然,特地发出来跟大家讨论一下。该论文的结论是
用方差贡献率对主成分或因子得分加权建立综合评价函数的方法是错误的!有些文章将各主成分或因子的方差贡献率除以累计贡献率后加权也是一样的。参加美赛的同学要注意了,这种处理方法在国外学术界是不被接受的。除非大家能在论文中论述清楚你有特别的依据或理由实施这种加权法(比如特定的模型有专家、业界的观点支持),否则任何情况下都不建议这么做。错误的数据分析会影响你的整个建模结果!