全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
4012 3
2018-12-13
不少书籍在介绍K-means算法时强调到变量会对结果有较大影响,而有一些案例中却直接使用于强相关性的变量,个人理解,引入强相关性变量对变量的重要性的确会有影响,但对聚类效果应该是能强化区分度的作用
在实际业务场景中有不少变量是有较强相关性,而一旦将它们排除,所剩的变量特征却很少,关于这个算法的应用,业界是否有硬性要求参与聚类的变量不能有强相关性?请专家解答一下这种情况,如果有书籍论刊比较全面讲到该问题,不防推荐推荐!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-12-16 14:23:11
k-means聚类的变量是需要独立的,强相关当然不满足其条件。
通过主成分分析可消除变量间相关性。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-16 14:43:09
kuangsir6 发表于 2018-12-16 14:23
k-means聚类的变量是需要独立的,强相关当然不满足其条件。
通过主成分分析可消除变量间相关性。
谢谢你的建议!
不知你有没看过张文彤的书,算是比较资深的学者,spss 统计分析高级教程,他在介绍K-means理论时有提到要避免相关性变量,也有说到你所说的处理方法。但他也从中写到强相关变量同时进入聚类分析,有时是人们所需要这样做的,书中的案例也完全没有排除强相关变量,给出了案例的分析的结论。
我就在想,是否在某些分析中,可以不排除强相关变量?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-12-18 18:26:46
万木青 发表于 2018-12-16 14:43
谢谢你的建议!
不知你有没看过张文彤的书,算是比较资深的学者,spss 统计分析高级教程,他在介绍K-mea ...
k-means聚类的条件就是:变量间是独立的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群