源数据是否进行标准化（对数）后进行PCA结果不相同

2206

收藏 2018-12-31

研究的思路是，原数据有19个指标，先取Z分数进行标准化后再用PCA进行数据降维，然后再用K-means聚类（或者K-medoids聚类）。按照这个方法，PCA的结果很好：一共分离出三个主成分，旋转后分别代表了大概6个有意义的原指标，代表源数据的94%；但是之后聚类的时候，其中98%的数据都分到同一类中（无论K设多少都是这样。。。），算是聚类失败了。

之后分析了一下源数据，猜测是因为源数据结构不是一次线性（K-means对线性结构数据聚类比较友好是吗？），基本呈现指数增长，有若干极大值。因此换了一下方法，在Z分数前对所有数据进行对数Ln处理，但是这个样的PCA结果跟原来差别很大：只有两个主成分，依然代表源数据的94%，旋转后两个主成分都各代表了6个源数据，剩下7个源数据没有代表（旋转后都两个主成分跟这几个源数据都只有大概50%的相关性），但是聚类结果非常好，最大的一类只有70%，而且返回到城市空间中非常有意义。

所以在这里想问问各位大神，为什么进行取对数Ln后会丢失了主成分的信息呢？我猜测是因为Ln的“拍平”效率太大了，尝试取二次根号，结果还是一样。。。请问为什么呢？
（其实就是想要第一次的PCA结果，和第二次的K-means聚类结果），谢谢各位！

下图是不进行Ln对数时候的结果：