全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
1764 5
2023-05-09
请教各位大神们
我做主成分分析过程中,发现选择的指标之间相关系数都大于0.95,意味着这些指标之间高度相关,但是按照常理,这些指标通常情况不应该相关性这么强,比如一个指标是中老年人口数量,另一个指标是城镇化率,这两个指标计算下来相关性0.987,不太符合常理。
我有几个疑问:
1、出现这种情况的原因,是不是要对指标值进行预处理,我理解虽然spss在处理数据时已经标准化过,但这两个数据的单位可能差异太大。
2、在各个指标相关系统都大于0.95的情况下,主成分分析还适用吗?还是有其他的分析方法

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2023-5-9 16:11:05
1. 有可能你使用的時間數列的資料,所以才有高相關。
2. 主成份分析的前提,就是要變量間有較高的相關;如果沒有相關,就不需要進行主成份分析。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-5-10 10:38:52
在2L基础上增加内容:
是否对指标进行标准化等特征转换(改变你所期望的单位问题),并不会影响核心的结果。除非是对数化等非特征转换,但其他转换都是要求数据有特殊分布形态的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-5-10 13:25:43
spss19 发表于 2023-5-9 16:11
1. 有可能你使用的時間數列的資料,所以才有高相關。
2. 主成份分析的前提,就是要變量間有較高的相關;如 ...
1.的确是时间序列的,我是用过去十年的中老年人口数量,收入、支出等指标预测某个消费品未来的增长率,这样就理解了,高相关是因为时间序列。
2. 我遇到的情况是相关太高了,10个指标相互间最低的相关性都是0.96,我猜想还有个原因是,初始模型中选择的指标过于偏重一大类,都侧重在支付能力和消费意愿和结构方面,后来我在模型中增加了目标消费人群数量的指标,这样相互的相关系数就降低下来了。
3、我总结下来,这个模型的指标之间这么高的相关,一方面是时间序列带来的,一方面可能是我选指标时遗漏了大类,一开始用的指标本质上可能就是一个因子。
不知道我理解的对不对
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-5-10 15:08:47
原理上主成分分析要求各个分析项之间有着适中的相关关系(不能过高或过低)。如果分析项之间的相关系数值过高(比如大于0.8),说明共线性太强,无法有效浓缩信息,此种情况可能导致KMO值无法输出。建议在进行因子分析前可先进行相关分析进行查看各分析项间的相关系数情况,移除掉相关系数值过高项之后,再次进行分析即可。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2023-5-24 15:14:06
在主成分分析中,相关系数矩阵的值越大,说明各个变量之间的相关性越强,这可能会导致主成分解释了更多的原始数据变异。因此,如果相关系数矩阵的值都大于0.95,可能需要重新考虑是否应该使用主成分分析。
阅读推荐:https://bbs.pinggu.org/thread-11212342-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群