全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1370 1
2016-04-01
目前我在做用户细分,采取kmeans来聚类,由于变量有20个,数据也有5w。(不算也大的数据)我尝试了不少方法,希望可以有较好的聚类结果,但不是特别理想,所以我想通过主成分分析进行降维。
我用R语言,碎石图给出的建议是分成5个主成分。(pc1至pc5) 下图是各个主成分对应变量的系数
微信截图_20160401184512.png

我的做法是将每一个主成分的系数与每一行数据对应相乘,这样pc1到pc5每一列都有5w条数据。拿这五个特征值进行聚类,
得到的效果不错。
我的问题是这么聚类是否合适,主成分+聚类?
再就是这里面我们看到,如pc1中有些变量值权重挺大,两者之间的相关性也比较高,不知道是否有影响,是否需要筛选还是使用每一个系数。  

非常感谢!希望可以得到大家的指导!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-4-1 23:48:08
(个人观点)主成分不适合和聚类一起做。你可以尝试用因子分析+聚类。因为主成分pc1-pc5没有具体的含义,而因子分析可以克服这一点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群