立即打开
研究的思路是,原数据有19个指标,先取Z分数进行标准化后再用PCA进行数据降维,然后再用K-means聚类(或者K-medoids聚类)。按照这个方法,PCA的结果很好:一共分离出三个主成分,旋转后分别代表了大概6个有意义的原指标,代表源数据的94%;但是之后聚类的时候,其中98%的数据都分到同一类中(无论K设多少都是这样。。。),算是聚类失败了。
之后分析了一下源数据,猜测是因为源数据结构不是一次线性(K-means对线性结构数据聚类比较友好是吗?),基本呈现指数增长,有若干极大值。因此换了一下方法,在Z分数前对所有数据进行对数Ln处理,但是这个样的PCA结果跟原来差别很大:只有两个主成分,依然代表源数据的94%,旋转后两个主成分都各代表了6个源数据,剩下7个源数据没有代表(旋转后都两个主成分跟这几个源数据都只有大概50%的相关性),但是聚类结果非常好,最大的一类只有70%,而且返回到城市空间中非常有意义。
所以在这里想问问各位大神,为什么进行取对数Ln后会丢失了主成分的信息呢?我猜测是因为Ln的“拍平”效率太大了,尝试取二次根号,结果还是一样。。。请问为什么呢?
(其实就是想要第一次的PCA结果,和第二次的K-means聚类结果),谢谢各位!
下图是不进行Ln对数时候的结果:
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
栏目导航
热门文章
推荐文章
扫码加好友,拉您进群