K均值聚类算法及其应用
什么是K均值聚类?
聚类是指对相似或具有共同特征的事物进行分组,因此k均值聚类的目的也是这样。K-均值聚类是一种无监督的
机器学习算法,用于将“ n”个观测值聚类为“ k”个聚类,其中k是预定义或用户定义的常数。主要思想是定义k个质心,每个聚类一个。
K Means算法涉及:
选择簇数“ k”。
将每个点随机分配给群集。
在集群停止更改之前,重复以下步骤:
对于每个聚类,通过获取聚类中点的平均向量来计算聚类质心。
将每个数据点分配给质心最接近的群集。
用K表示非常重要的两件事:第一是在对数据进行聚类之前先缩放变量,第二是查看散点图或数据表以估计要为模型中的k参数设置的聚类中心的数量。 。
选择最佳K值:
选择k值的一种方法是使用弯头方法。首先,您计算某些k值的平方误差总和(SSE)。SSE是群集中每个成员与其质心之间的平方距离的总和。如果将k相对于SSE绘制,您将看到误差随着k的增加而减小。这是因为随着簇的数量增加,误差应较小,因此失真应较小。弯头法的思想是选择SSE显着降低的k值。
K-Means聚类的应用:
k均值可以应用于维数较少,为数字且为连续的数据。例如文件聚类,识别容易犯罪的区域,客户细分,保险欺诈检测,公共交通
数据分析,IT警报聚类…等。
1