目前我在做用户细分,采取kmeans来聚类,由于变量有20个,数据也有5w。(不算也大的数据)我尝试了不少方法,希望可以有较好的聚类结果,但不是特别理想,所以我想通过主成分分析进行降维。
我用R语言,碎石图给出的建议是分成5个主成分。(pc1至pc5) 下图是各个主成分对应变量的系数
我的做法是将每一个主成分的系数与每一行数据对应相乘,这样pc1到pc5每一列都有5w条数据。拿这五个特征值进行聚类,
得到的效果不错。
我的问题是这么聚类是否合适,主成分+聚类?
再就是这里面我们看到,如pc1中有些变量值权重挺大,两者之间的相关性也比较高,不知道是否有影响,是否需要筛选还是使用每一个系数。
非常感谢!希望可以得到大家的指导!