python机器学习: 将PCA应用于cancer数据集并可视化

时光人

2273

收藏 2019-10-15

AIU 人工智能学院：数据科学、人工智能从业者的在线大学。

数据科学（Python/R/Julia）数据分析、机器学习、深度学习

PCA最常见的应用之一就是将高维数据可视化，它可以将具有两个及以上特征的数据进行可视化，下面我们利用PCA来对cancer数据集进行可视化（良性肿瘤和恶性肿瘤），不使用PCA时可视化只能一个一个去对比其中的数据，其代码如下：

复制代码

运行后结果如下：

乳腺癌数据集中的类别直方图1

乳腺癌数据集中的类别直方图2

乳腺癌数据集中的类别直方图3

这里我们为每个特征创建一个直方图，计算具有某一特征的数据在特定范围内（叫做bin）的出现频率，。每张图都包含两个直方图，一个是良性类别（蓝色），一个是恶性类别，这样我们可以了解每个特征在两个类别中的分布情况，也可以猜测哪些特征能够更好地区分恶性和良性样本。如：“smoothness error”特征似乎没有什么信息量，因为两个直方图大部分都重叠在一起，而“worst concave points”特征看起来信息量比较大，因为两个直方图的交集很小。

但是，这种图无法向我们展示变量之间的相互作用以及这种相互作用与类别之间的关系。利用PCA，我们可以获取到主要的相互作用，并得到稍微完整的图像，我们可以找到前两个主要成分，并在这个新的二维空间中用散点图来将数据可视化，其代码如下：

复制代码