【学习笔记】回想聚类过程示意图导包 from sklearn.datasets import make_bl ...

950

收藏 2019-12-25

回想聚类过程示意图
导包
from sklearn.datasets import make_blobs #导入生成簇状数据的模块
from sklearn.cluster import KMeans #导入KMeans
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn.metrics import silhouette_samples, silhouette_score #导入轮廓系数
import matplotlib.cm as cm #导入colormap模块,图谱

1、创建数据集并查看
X,y = make_blobs(n_samples=500, n_features=2, centers=4, random_state=1)

n_samples设置样本数量,n_features=2设置特征数量是2,方便画图 ,
random_state=1 固定簇中数据的生成方式,方便实验结果可以复现

2、画图查看数据集的分布情况
通过画图查看生成数据集的数据分布为了看可以聚成几类作参考
plt.scatter(X[:,0],X[:,1],s=8); #s =8设置点的大小

3、基于自建的数据集运用K-Means进行聚类
（1）导包
from sklearn.cluster import KMeans #导入KMeans

（2）建模
n_cluster = 3 #设置聚类簇数为3簇

kmeans = KMeans(n_clusters = n_cluster ,random_state= 0)
实例化模型 ,要求模型聚类簇数为n_cluster类 .random_state= 0后续详细讲解

cluster = kmeans.fit(X)
由于聚类数据没有真实标签y,所以训练模型时只用特征矩阵训练
训练特征矩阵,拟合模型,计算K均值的聚类结果,找到质心,聚类完成

（3） labels属性调取聚类结果：重要属性labels_,查看聚类好的结果,每个样本所对应的类别标签
y_pred = cluster.labels_
查看聚类后的标签,因为要求聚类数量是3类,所以预测的标签是0,