17种常用的数据科学和挖掘聚类算法

AIU人工智能学院

3124

收藏 2022-02-21

描述聚类算法概述、用例以及优缺点题库
目录（TOC）

简介

机器学习
聚类分析
聚类类型
聚类算法

1、基于质心的聚类

k-means
k-means++
k-means||
模糊 C-means
k-medoids, PAM
k-Medians
k-Modes
k-prototypes
CLARA
CLARANS

2、基于分布的聚类
  11.GMM
  12.EM
  13.DMM
3、基于密度的聚类
  14.DBSCAN
  15.ADBSCAN
  16.DENCLUE
  17.OPTICS
4、结论

介绍
数据变得越来越重要，并且可供全球人使用，越来越多的数据科学和机器学习方法已经被设计出来。聚类分析模型看起来可能很简单，但要了解模型怎样处理海量数据。然而，在大量聚类算法之间难以做出合理的选择，并且需要对各种算法有相当多的了解。因此，本文汇总了 17 种聚类算法，以提供有关其中大部分算法的大量知识。

机器学习
机器学习是人工智能的一个子领域，最简单的定义是，机器如何通过发现统计方法来学习数据（例如，从传感器收集的数据、实验……）来做出决策并自行完成任务（自动化数据）驱动模型）。就是这么简单。然而，困难来自狭窄的细节和应用。这一切都是从分析数据并从中学习。此外，机器学习为其核心提供了数据科学的基础。

从历史上看，机器学习起源于人工智能中的连接主义，其中一群人想要复制具有相似特征的人脑机制。此外，它主要受益于融合了心理学和其他领域（例如统计学）的思想。此外，统计学和机器学习是根本不同的领域，前者旨在为人类提供正确的工具来分析和理解数据。后者侧重于自动化人类在分析数据时的干预（AI奇点）。

聚类分析
聚类分析、聚类或数据分割可以定义为一种无监督（未标记数据）机器学习方法，旨在收集数据样本的同时找到范例（例如，许多子组、每个组的大小、共同特征、数据凝聚力……）并使用预定义的距离度量（如欧几里得距离等）将它们分组到相似的记录中。共享相似特征的数据对象或观察被分组到一个集群中，该集群由保存这些数据样本的距离（例如，椭圆的长轴）描述。

聚类分析被图像处理、神经科学、经济学、网络通信、医学、推荐系统、客户细分等各种应用广泛采用。此外，在处理新数据集以提取见解和了解数据分布时，可以将聚类视为初始步骤。聚类分析也可用于执行降维（例如，PCA）。它还可以作为分类、预测和其他数据挖掘应用程序等其他算法的预处理或中间步骤。

聚类类型
有很多方法可以将聚类方法分类。例如，基于重叠区域，存在两种类型的聚类：

硬聚类：聚类不重叠：k-means、k-means++。一个数据点只属于一个集群。它要么属于某个集群，要么不属于某个集群。
软聚类：聚类可以重叠：Fuzzy c-means、EM。一个数据对象可以以一定的概率或隶属程度存在于多个集群中。
此外，聚类算法可以根据它们尝试达到的目的进行分类。因此，存在两种基于此标准的聚类技术：
Monothetic：集群成员之间存在一些共同属性（例如，25% 的患者因疫苗 A 出现副作用）：数据按单个特征生成的值进行划分。
Polythetic：集群成员之间存在某种程度的相似性，但没有共同的属性（例如，不相似性度量）：数据根据所有特征生成的值进行划分。

基于所使用的聚类分析技术，每个聚类呈现一个质心、一个代表数据样本中心的单个观测值和一个边界限制。下图代表了一些常见的聚类算法类别。

聚类算法的综合调查

聚类算法

基于质心的聚类
该方法的主要步骤之一是初始化集群的数量 k，这是一个在模型的训练阶段保持不变的超参数。

1、k-means或Lloyd 算法
最流行的分区算法之一（在谷歌学者上被引用超过一百万）用于对数据进行聚类。使用这种多元硬聚类方法，n 个数据被分成 k 个分区 (k << n)，其中每个分区代表一个簇。每个集群必须至少包含一个数据。此外，每个数据必须只属于一个组。此外，对同一集群的观察应该彼此相似或接近。相反，不同组的对象必须彼此相距甚远或不同。换句话说，k-means 算法的目标是最大化每对集群中心之间的距离，并最小化每个集群内的观测值之间的距离（例如，最小化集群内的平方误差和 SSE）。 .

如果满足以下条件，k-means 聚类效果很好：

每个属性的分布方差是球形的。
组是线性可分的。
聚类具有相似数量的观察值（更接近大小。）。
变量呈现相同的方差。

然而，如果这些假设之一被打破，这并不一定意味着 k-means 将无法对观察结果进行聚类分析，该算法的唯一指标是最小化平方误差之和 (SSE)。这里有一个很好的讨论说明，如果不满足前面的假设之一，k-means 会很好地工作。

为了更好地理解数据（例如，提取信息和查找聚类），经验法则是将数据绘制在二维空间中。例如，要找出 iris 数据集中有多少簇，一个基本的相关矩阵会说明很多问题。

如图所示，该数据集中有三个主要集群。因此，为了进一步的训练数据，k 应该等于 3。然而，这并不是选择 k 值的最佳方法。
在建模中，标准化是从目标函数开始，其中函数针对不同的 k 值运行（例如，k= 1、2、3、4……），并使用称为 WCSS（组内平方和）的稳健方法) 计算每个集群成员与其质心之间的距离总和，使组内平方和最小化以达到 k 的最佳值。

k 的最佳值为 3

还有另一种方法可以通过计算每个组的轮廓系数来选择正确的 k 值：同一簇的点之间的平均距离。它提供了一个指标，表明数据对象根据它们的集群有多相似。为了说明这一点，我们在 iris 数据集上绘制了一个轮廓图，其中每个集群都有一个轮廓系数。

k = [2, 3, ..., 7] 的轮廓系数得分

使用这种方法，系数越接近 1，k 值越适合模型。因此，k 的最佳值是 2 和 3，因为它们为每个集群画出比其他的轮廓系数更高。

K 值也可以使用方差进行初始化，该方法表示平方和百分比 (BSS/TSS) 与组数的关系图。

k 的最佳值为 3

如图所示，最佳集群数量是拐点形成的位置。因此，k 等于 3。

此外，还有许多其他方法可用于估计 k 的最佳值，例如R 平方度量。然而，轮廓系数得分已被证明是找到 k 的最佳方法。

解释
这一切都始于在特征样本中随机放 k 值，其中每个点代表一个集群的质心。使用某种差异性度量迭代计算数据集的每个样本值到每个聚类中心之间的距离。此外，将每个样本值分给距离最近质心的集群。之后，对于每个集群，计算每个集群点的平均值（数字属性）并将质心重新分给结果平均值。这个过程将不断循环，直到满足预定义的收敛条件（例如，达到最大迭代次数，误差不变，BSS 低于给定最小，SSE 最小，最小化目标函数，失真......）

k-means 的成本函数

算法
1、从数据集中挑选 k 个随机质心

2、使用适当的相异性度量（例如，欧几里得距离）计算每个样本点与簇的质心之间的距离。

3、根据计算出的距离将每个样本点分给最近的集群。

4、通过计算样本点的平均值来重新定位质心。因此 k-means 仅适用于数值数据！

5、重复 2 直到集群稳定或目标函数 J 达到最小值。

优势

学习曲线比较陡峭
由多种包广泛实现（ R 中的Stats包，python 中的 scikit-learn ......）
快速收敛小数据集
易于实施

20 次迭代对 iris 数据集进行聚类

缺点

大型数据集的计算成本很高（k 变大）
有时，很难为组数（k）选择一个初始值
不保证收敛到全局最小值。它对质心的初始化很敏感。不同的设置可能会导致不同的结果
对异常值有很强的敏感性
仅适用于数值数据
无法为一组具有非凸形状的点提供良好的聚类分析

k-means 无法分离月形样本点

但是，使用拐点初始化组数，使用k-means++克服参数初始化的敏感性，使用遗传算法等技术寻找全局最优解，可以解决一些缺点

应用场景
k-means 聚类被各种现实世界的业务所采用，例如搜索引擎（例如，文档聚类、聚类相似文章）、客户细分、垃圾邮件/火腿检测系统、学术表现、故障诊断系统、无线通信等等

目标函数最小化

k-means 的目标函数

为了找到 k 个集群的最优解，目标函数J wrt μ的导数必须等于 0

对于每个集群 J，前面的等式将导致：

每个簇质心与欧几里得距离的梯度

每次迭代后，每个集群的质心都会更新为集群内所有样本点的经验平均值。

请注意，最小化每个集群内的欧几里得距离的问题称为Weber 问题。而且，从几何上讲，均值并不是最优解。因此需要复杂的几何中心，如中值、中点，以最小化欧几里得距离。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

AIU人工智能学院

2022-2-21 13:35:23

2、k-means++
k-means++ 背后的想法是它试图分散中心，同时在每次迭代中分配一个新中心。因此，该算法首先从数据集中随机（均匀）选择一个初始中心，这意味着所有点都有相同的被选中概率。然后计算从每个样本点到先前选择的中心的距离平方。之后，它通过简单地将距离除以总距离来计算每个数据点的概率。此外，将新的质心分配给具有最高概率或最大距离的点。换句话说，数据成为新集群中心的可能性与距离的平方成正比。

k_means++ 采样 k 个质心

一旦分配了中心，k-means 算法将和这些集群的中心一起运行，并且它会更快地收敛，因为中心已经被仔细选择并且彼此远离

k_means 在采样质心上。~ 12 次迭代

算法

初始化步骤
以统一的方式独立地对每个质心进行采样，概率与每个样本点到每个质心的距离平方成正比。

聚类步骤
一旦 k 个质心被均匀采样，K-means 算法将使用这些质心运行

优点

与 K-means 的优点相同
在更少的迭代次数内收敛速度比 K-means 快

缺点

与 K-means 相同的缺点
初始化步骤（为 K 选择初始值）可以被认为是 kmeans++ 的主要缺点之一，就像其他风格的 K-means 算法一样。然而，它比单独运行 K-means 更有可能收敛和更快。此外，该算法仍然对可以使用LOF、RANSAC和其他方法解决的异常值敏感

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 13:46:19

3、K-means||，可扩展的 K- means ++
K-means 并行是一种勉强满意的算法，它在每次迭代后不太频繁地更新样本的分布。它在 k-means 算法中引入了一个过采样因子（L ~ k 阶，例如 k、k/2、...）。使用该因素，它将使算法在更大的数据集上收敛得更快。

算法
初始化步骤

k-均值|| 初始化步骤

初始化过采样因子 L 的值
对于一定次数的迭代（0 ≤ nb_iter ≤ k），随机均匀地采样 L 个质心，概率与每个数据点到每个质心的距离平方成正比（比 kmeans++ 算法中的概率大 L 倍）

nb_iter = 0 ---》 k 均值聚类

nb_iter = k，L = 1 ---》 k-means++ 聚类

聚类步骤
一旦 k 个质心被均匀采样，K-means 算法将使用这些质心运行

k_means 在 4 次迭代中收敛

优点

适用于大型数据集。运行时〜日志（k）
比 kmeans++ 快，因为它每次迭代对 L 个质心进行采样

缺点
它可能导致基于 L 的值的过采样或欠采样

过采样（L = 20）~ 13 次迭代，使用 k-means

使用 k-means 进行欠采样 (L = 0) ~ 14 次迭代

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 13:56:01

4、Fuzzy C-means: FCM

FCM算法
Fuzzy一词用于强调这样一个事实，即允许在一个或多个集群中存在样本点的地方形成各种阴影的集群（例如，不相交的、非不相交的……）。例如，橙色是红色和黄色的混合颜色，这意味着它在某种程度上属于每个颜色组。

隶属度函数用于衡量一个数据点对每个聚类的归属程度。它描述了一个样本点属于某个集群的概率

该算法旨在最小化以下成本函数：

FCM的目标函数

算法
1、根据预定义的权重 aij^p 和 p 的初始值选择 k 个初始模糊伪质心
2、使用模糊分区更新聚类中心

3、使用以下公式更新权重

4、计算目标函数 J

5、重复2直到稳定质心或满足以下标准：新计算的目标函数与旧的目标函数之间的差异小于某个值

FCM 的收敛条件
Fuzzy k-means 展示了大型现实世界用例，例如图像分割、异常检测。与边缘和对象检测等其他图像处理技术相比，它的计算量较小

优点

与 k-means 相比，重叠数据的结果更好
时间复杂度低
保证收敛

缺点

对 k 和 p 的初始值敏感
对异常值敏感

成本函数最小化

FCM 的成本函数

为了找到 k 个集群的最优解，成本函数J wrt μ的导数必须等于 0

对于每个集群 J，前面的等式将导致：

成本函数 wrt 质心 j 的梯度

知道对于数据集中的每个观察，所有集群的成员之和等于 1；因此，每个集群的质心在每次迭代后都会更新为其经验平均值。

每次迭代后，每个簇的质心更新为簇内所有数据点的平均值

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 14:01:06

5、k-medoids，PAM（Partitioning Around Medoids）
k-means 算法的修改版本，其中中心点表示在集群内的所有点中具有最低平均相异性的数据点。目的是最小化每个集群的总成本。与 k-means 不同，它使用medoid作为度量来重新分配每个集群的质心。Medoids 对异常值不太敏感。这些中心点是来自数据集的实际观察结果，而不是像 k-means 那样的计算点（平均值）。最好使用曼哈顿距离作为度量，因为它对异常值不太敏感。

算法

随机选择 k 个观测值作为初始中心点。
计算观测值和中心点之间的距离。
将每个点分配给最近的中心点。
在每个集群中选择一个新的观察（非中心点）并将其与对应的中心点交换。
计算每个中心点的交换成本和每个集群内的新数据点。
选择成本最低的观测值（例如，最小相异之和）作为新的中心点。
重复步骤2，直到满足收敛条件（例如，最小化成本函数，误差平方和（PAM 中的 SSE））。

k-medoids 成本函数

优点

在存在异常值的情况下比 k-means 更稳健（受异常值影响较小。）
易于实施。
它在固定次数的迭代中收敛。
它适用于小型数据集。

缺点

它不适用于大型数据集。
计算复杂度相当昂贵。
参数k需要初始化为某个值。
不保证收敛到全局最小值。它对质心的初始化很敏感。不同的设置会导致不同的结果。
仅适用于数值数据。
为了提高 PAM 的效率，使用了 CLARA 算法。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 14:07:01

6、k-Medians

k-means 算法的修改版本使用中位数，该中位数代表其他观察值均匀分布在其周围的中间点。中位数对异常值的敏感度低于平均值。

中位数对异常值的敏感度低于平均值

此外，它使用曼哈顿距离作为计算观测值之间距离的度量。此外，该算法旨在最小化以下成本函数：

K 中位数成本函数

算法

随机选择 k 个观测值作为初始中位数
计算观测值和中位数之间的距离
将每个点分配给最近的中位数
计算每个集群的中值并将其分配为集群的新质心
重复步骤2，直到满足收敛条件（例如最小化像SSE这样的成本函数）

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

AIU人工智能学院

2022-2-21 14:14:13

7、k-Modes
由于 K-means 仅处理数值数据属性，因此开发了 k-means 算法的修改版本来对分类数据进行聚类。众数替换每个集群中的平均值。但是，有人可能会想到在分类属性和数值属性之间进行映射，然后使用 k-means 进行聚类。这有时可能适用于小维度数据集。但是，两种不同类型属性之间的映射不能保证对高维数据进行高质量的聚类。因此，建议在对分类数据属性进行聚类时使用 k-modes。

k-Modes中使用的差异度量之一是余弦差异度量，这是一种基于频率的方法，用于计算两个观察值之间的距离（例如，两个句子或两个文档之间的距离）。

k-mode的成本函数

算法
K-Modes 聚类过程包括以下步骤：

1.随机选择 k 个观测值作为初始中心（众数）。
2.计算每个数据点与聚类中心的相异性度量（模式）

分类数据的相异性度量（例如余弦……）
3.根据相异性度量（例如余弦相异函数）将每个观测值分配到最近的聚类中心。
4.根据在每个集群中计算的众数值重新定位每个质心。
5.重复步骤 3，直到满足收敛条件（例如，最小化像 SSE 这样的成本函数）。

优点

能够对分类数据属性进行聚类。
它比 K 原型收敛得更快。

缺点

大型数据集的计算成本很高（k 变大。）。
有时，很难为簇数（k）选择正确的初始值。
不保证收敛到全局最小值。它对质心的初始化很敏感。不同的设置可能会导致不同的结果。
效率取决于算法使用的相异性度量（例如斯皮尔曼相关、余弦距离……）。
将附加变量添加到算法（𝛾）中，控制从每个观察到其聚类中心的距离的权重。

局部最优问题可以使用诸如布谷鸟搜索算法之类的全局优化算法来解决。

应用程序
k-modes 常用于文本挖掘，如文档聚类、每个聚类组代表给定主题（相似词……）的主题建模、欺诈检测系统、营销（例如，客户细分）、网页聚类等等。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 14:40:20

8、k-prototypes
此方法适用于数字和分类数据属性的混合。该算法可以被认为是 k-means 和 k-modes 算法的组合。

使用这种算法，每个数据点都有一个权重，作为数值和分类集群的一部分。此外，每种类型的观察都可以以单独的方式处理，其中质心在每种类型的集群中扮演吸引子角色。可以使用 FCM 中的模糊隶属函数aij来控制给定数据点的隶属关系。

k-prototypes的成本函数

𝛾用于平衡分类和数值数据属性之间的影响

算法
K-Prototypes 聚类过程包括以下步骤：
1、随机选择 k 个代表作为 k 个簇的初始原型。
2、计算每个数据点与相应聚类中心（原型）之间的距离（例如，欧几里得）和相异性度量（例如，余弦。）。

欧几里得距离和相异性度量
3、根据距离公式将每个观测值分配给最近的集群原型。
4、根据以下公式重新定位每个聚类中心。

每种属性的聚类中心
5、重复步骤2，直到满足收敛条件（例如，成本函数的最小值）。

优势

能够对混合类型的属性进行聚类。
在合理数量的迭代中收敛。

缺点

不同的差异度量会导致不同的结果。
对 k 和 𝛾 的初始值敏感。
不保证收敛到全局最小值。它对中心点的初始化很敏感。不同的设置可能会导致不同的结果。
效率取决于算法使用的相异性度量（例如斯皮尔曼相关、余弦距离……）。
在聚类分类数据的情况下比 k 模式慢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 14:47:57

9、CLARA（集群大型应用程序）
它是一种基于样本的方法，它随机选择一小部分数据点，而不是考虑整个观察结果，这意味着它在大型数据集上效果很好。此外，k 个中心点是从先前选择的样本中选择的。这将有助于提高 PAM 的可扩展性（减少计算时间和内存分配问题）。它在不同批次的数据集上按顺序工作，以找到最佳结果。

CLARA

该算法的结果是一组成本最低的中心点

算法

从具有固定大小（大小 s）的数据中随机选择多个子集。
对一块数据计算k-medoid算法并选择相应的k个medoid。
将原始数据集的每个观测值分配给最近的中心点。
计算观测值与其最近中心点的差异的平均值。
保留均值最小的数据子集。
重复直到找到最佳中心点。

优点

处理大型数据集的能力。
在处理大型数据集时减少计算时间。
处理异常值的能力

缺点

效率受 k 值和样本大小的影响。
聚类的质量取决于所使用的抽样方法的质量。
难以实施。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 14:55:10

10、CLARANS（基于随机搜索的大型应用程序集群）
它是数据挖掘中用于对大型数据集进行聚类的 k-medoid 的扩展。

CLARANS

该算法的结果是一组成本最低的中心点。

算法

从数据集中随机选择 k-medoids。
从先前选择的观测值和中心点中选择一个观测值。
计算两点与数据集中所有其他数据点之间的距离。
计算交换两个数据点的成本，并选择成本最低的作为中心点。
重复步骤⒈直到收敛（找到k-medoids的最优选择）。

优点

在大型数据集上比 PAM 和 CLARA 更有效。
处理异常值的能力。

缺点

难以实施。
聚类的质量取决于所使用的抽样方法的质量。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:00:50

基于模型/分布的聚类
概率建模

概率模型是由数据变量的联合分布参数化的生成数据模型：P(x1, x2, ..., xn, y1, y2, ...,yn|θ) 其中 X 是观察到的数据，y：潜在变量，θ a范围。

P(y1,…,yn|x1,…,xn, θ) = P(x1,…,xn, y1,…,yn|θ)(联合) / P(x1,…,xn|θ)(边际概率)

学习

学习阶段使用最大似然进行：

θML = argmax θ P(x1,…,xn|θ)

目的是找到一个使观测数据的概率最大化的参数 θ。

预测

P(xn+1, yn+1|x1,…,xn, θ)

目标是计算给定观察数据集的潜在属性的条件分布。

分类

目标是找到一个类，在给定学习参数 θ 的情况下，最大化未来数据的概率：

argmax c P(xn+1|θc )

概率建模中使用的一些标准算法是 EM 算法、MCMC 采样、连接树等。

11、GMM：高斯混合模型

在二维变量空间中，高斯分布是使用两个具有正态分布的随机变量构建的二元正态分布，每个变量都通过其均值和标准差进行参数化。

在我看来，高斯分布之所以如此重要，是因为它使计算（例如，线性代数计算）变得毫不费力。然而，它并不是实际应用的完美模型。

3d 空间中的高斯及其投影

高斯混合模型是一种半参数模型（有限数量的参数随数据增加。）用作软聚类算法，其中每个聚类对应于一个生成模型，旨在发现概率分布的参数（例如，平均值，给定集群的协方差、密度函数……）（它自己的概率分布控制每个集群）。学习的过程是将高斯模型拟合到数据点。高斯混合模型假设集群在 n 维空间中呈正态分布。

一维空间中的协方差矩阵和高斯公式

为了说明一维空间中的混合模型，假设有两个具有正态分布的信息源，其中从每个源收集了 n 个样本。为了估计每个高斯分布的平均值，取观测值的总和，然后将它们除以收集的样本数（经验平均值。），同样用于估计其他参数。

当有 k 个高斯模型时，问题就出现了，并且没有给出观测值来自何处的信息；弄清楚如何将点划分为 k 个簇并不容易。因此，几乎不可能估计每个高斯参数。但是，如果预定义了高斯参数（均值，方差），则可以解决此问题。

这就是 EM 方法试图解决的问题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:16:22

12、EM：聚类背景下的期望最大化
它是一种众所周知的拟合混合分布的算法，旨在在某些数据点不可用时（例如，未知参数、潜在值...... ）。在 GMM 的上下文中，直觉是在空间中随机放置 k 个高斯模型，并计算每个数据点对某个高斯模型的归属度。与硬聚类（例如，k-means）不同，该方法计算每个点成为某个聚类成员的概率。此外，这些值用于重新估计集群参数（例如，均值、协方差）以拟合分配给每个集群的点。

EM 被广泛用于解决诸如“隐藏数据”问题、隐藏马尔可夫模型等问题，其中存在一系列潜在变量，这些潜在变量取决于先前隐藏变量的状态。此外，每个观察都取决于相应隐藏变量的状态。

隐马尔可夫模型

πₖ是给定先前状态 k 的转移概率。箭头描述变量之间的依赖关系。

算法

EM算法由两个步骤组成，期望步骤和最大化步骤。

步骤 0：参数 thetas 的初始化。

E-Step：在这一步中，假设当前假设在质心μj和协方差下成立，通过计算每个潜在数据点的归一化期望值Wij （每个分布中数据点的权重）来估计观测值来自哪个分布集群 J 的矩阵Σj：

P(xi|K=j, θ)是多元正态分布Xi~N(μi, Σi) 的条件概率。

每个集群都有概率𝜋( prior )，可以根据训练数据集进行估计。

M-Step：使用从上一步获得的信息，M-Step 将使用新的最大似然假设更新均值μj和协方差Σj（或方差𝜎 ）的估计值，假设每个隐藏变量的值是期望值。

重复 E 和 M 步骤，直到对数似然函数收敛。

对数似然函数

对数似然图

利用每次迭代后似然性单调增加的事实，该算法更有可能收敛到最优值。

为了演示 EM 算法，让我们考虑从三个高斯模型（a、b、c）生成的观察结果。由于每个样本都是未标记的，因此目标是估计这三个高斯模型的参数，以将每个点标记为特定的高斯分布。为了估计这些参数，三个高斯模型被随机放置在一维数据集空间中。

1、计算从具有以下密度函数的三个高斯模型生成的每个数据点的似然性。

2、E-Step：对于每个数据点，计算其权重 wi(ai, bi, ci)。

3、 M-Step：此时可以估计每个模型的均值和方差。

4、估计概率。

5、重复 E 和 M 步骤，直到对数似然函数收敛。

具有 3 个集群的 1d GMM。

具有 3 个集群的 2d GMM。

优点

它为混合分布生成有效的参数估计。
实现起来非常简单。

缺点

为 k（混合模型的数量）选择一个初始值，就像在 k-means 中一样。
对初始值敏感，导致结果不同。
可能收敛到局部最优解。
收敛可能很慢。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:26:07

13、DMM：狄利克雷混合物模型

狄利克雷过程

Dirichlet 过程是一个随机过程，它在离散分布（概率度量）上产生分布，用于定义贝叶斯非参数（未固定的参数集。例如，~无限数量的参数。）模型。狄利克雷分布是一个连续多元密度函数，由具有正分量的浓度/精度参数/向量 (α₁, …, αₖ) 和基本分布 H: DP(α, H) 参数化。它就像一个 Beta 分布（例如，Coinflip），用于两个以上的结果。

联合分布的图形模型

k维狄利克雷：(π₁, π₂, …, πₖ) ~Dirichlet(α₁, α₂,…, αₖ)

Thetas 是独立的参数，并且在 H 上均匀分布，目标是在给定观测值 xi 的情况下推断参数 θ 和潜在变量。

不同α > 1值的狄利克雷分布和样本

α = (1, 1, 1)，该图表示均匀分布
α > (1, 1, 1)，该图表示单峰分布
0 < α < (1, 1, 1)，该图表示多峰分布

不同α < 1值的狄利克雷分布和样本

狄利克雷分布的一大特性是，当合并两个不同的分量（πi，πj）时，它会产生一个边缘分布，即通过对参数（αi，αj）求和而参数化的狄利克雷分布。它类似于降维的思想。此属性称为折叠。另一个性质是可以证明具有伽马分布的随机变量遵循狄利克雷分布。

π是经常使用著名的断棍示例描述的概率。为了解释这些值，一根长度为一个单位的棍子用于随机生成一个介于 0 和 1 之间的数字（棍子的最大长度），在该数字处棍子将被折断。一旦生成了，就可以在长度π处折断棍子，该长度表示来自 Beta 分布的随机值，其中 1 和 α 作为参数：π ～ Beta(1,α)。通过打破那根棍子，它将生成一个概率质量函数 (PMF)，其中两个结果的概率分别为π和1-π。两根木棍可以类似地进一步折断，因此所有木棍的长度之和必须等于 1。而且这个过程可以无限重复。

断棍的例子

y 轴表示后验的预期混合权重 ( πi )。x 轴表示组件的数量

狄利克雷分布通常在主题建模和 LDA（潜在{隐藏主题}狄利克雷{狄利克雷分布}分配）的上下文中进行解释。LDA 的工作原理是将许多文档聚集成包含相似词的主题，而无需事先了解这些主题。LDA 通过从两个分布（按文档分布主题，按主题分布单词）中采样来构建文档。

联合分布的图形模型

在 LDA 中，每个主题在词上都有一个多项分布 (H)，每个文档都是从参数化为α的狄利克雷分布 ( π ) 中采样的，每个词 (xi) 是从具有参数化的多项分布的隐藏主题 (Zi) 中采样的π。

通过对每个文档进行分类，LDA 倾向于通过最大化其概率来使每个文档有意义，如下所示：

然而，最大化这个公式是相当昂贵的。因此，吉布斯采样用于最大化方程的每个参数（单词：x，主题：z…）。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:30:41

14、LDA 算法

1、初始化主题数 k
2、将每个文档的每个单词随机分类为一个主题。
3、对每个文档进行迭代，并计算以下概率：

4、将每个单词重新分类到给定的主题。
5、重复直到前面的公式达到最大值。

优势

对于大型数据集非常高效和灵活。
算法的工作流程独立于其他任务。

缺点

主题数量 k 必须提前定义。
不相关的话题。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:38:35

基于密度的聚类

在基于密度的聚类中，数据空间中的密集区域与密度较低的区域分开。如果某个位置的密度大于预定义的阈值，则将观测值分配给给定的集群。

对于一个集群中的给定观察，该点周围的局部密度必须超过某个阈值。局部密度由两个参数定义：圆的半径ε，该圆包含给定点周围一定数量的邻居，以及该半径周围的最小点数：minPts。

定义

eps -Neighborhood：给定点的半径为 eps 的圆的面积。

密度可达：点 p 被描述为从点 q 相对于 Eps 和 MinPoints 可达的密度，如果有一组点 (p1, p2, ..., pi,..., pn) 以这样的方式 pi+1 可以直接从圆周率。

直接密度可达：点 p 被描述为从点 q 相对于 Eps 和 MinPoints 的直接密度可达，当且仅当 p 属于半径为 Eps 的圆并且该圆的半径大于或等于 MinPoints。

密度连接：点 p 被描述为与点 q 相对于 Eps 和 MinPoints 的密度，当且仅当存在从 p 和 q 密度可达的点 w 时。

可达性类型

优势

不需要簇数 k。
发现更复杂的星团形状（例如卫星形状的星团）。
异常值检测。

缺点

对拓扑连接的对象进行分类在计算上是不可行的。
不像 K-means 那样保持可扩展性。
对 EPS、MinPts 敏感
密度测量受采样数据点的影响。

15、DBSCAN：基于密度的基于噪声的应用程序空间聚类

DBSCAN 发现 4 个集群

它是迄今为止最流行的基于密度的聚类算法，在Google Scholar上被引用超过 41k 。中心思想是将观察结果划分为 3 种类型的点组：

1、核心点： ε-邻域有超过minPts个点。

minPts = 5

2、边界点：小于ε内的minPts但在核心点附近。

B点可以从核心点A到达。
3、噪声或异常点：所有剩余点：不是核心点，并且距离不够近，无法从核心点到达。

解释

它首先随机选择一个尚未分配给集群的点。然后算法确定它是核心点还是异常值。一旦找到一个核心点，它的所有密度可达观测值都将被添加到一个集群中。之后，该算法将对每个可直接到达的点执行邻居跳转并将它们添加到集群中。如果添加了异常值，则将其标记为边界点。然后，该算法会选择另一个核心点并重复前面的步骤，直到所有点都被分配到集群或标记为异常值。

算法

随机选择一个点P。
在给定eps和minPts的情况下，发现从 P 密度可达的所有点。
检验 P 是否为核心点。将形成一个集群，其中至少有一个核心点、可到达的核心点及其所有边界。
重复前面的步骤，直到遍历完所有点。

优点

能够确定任意形状的簇。
对异常值的敏感性较低。
可作为异常值检测。
有效地处理任何大小的数据集。

缺点

对于高维数据集不能很好地扩展。
取决于几个超参数。
寻找不同密度的集群的问题。
仅适用于数值数据。

应用程序
它广泛用于异常检测、科学文献和其他应用。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:46:38

16、ADBSCAN：自适应DBSCAN

顾名思义，该算法与前一种算法的不同之处在于，它根据每个集群的密度分布调整了Eps和MinPts的值。它会自动找到正确的 Eps 和 MinPts 值。

它首先随机选择Eps的值。然后，它在数据集上运行 DBSCAN，如果找不到集群，它将Eps的值增加0.5。当算法找到一个集群（10% 的相似数据）时，它会从数据集中排除该集群。并且，该算法不断增加 Eps 的值以找到下一个集群。一旦算法成功完成扫描大约 95% 的数据，剩余的数据点将被宣布为异常值。

但是，ADBSCAN 需要数据集中的簇数的初始值。有关更多信息，请考虑阅读本文。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 15:50:55

17、DENCLUE：基于DEN位置的CLU st E环

DENCLUE 应用核密度估计方法来估计生成数据样本的随机变量的未定义概率密度函数。该估计基于表示每个数据点的分布的核密度函数（例如，高斯密度函数）。然后，通过对它们求和（或积分）来计算所有先前函数的核密度估计。

基于样本分布的核密度估计（KDE）

核是一种数学函数，用于对数据点与其邻居之间的影响进行建模。此外，核密度函数具有以下属性：

非负性：K(x) ≥ 0
对称：K(x) = K(-x)
内核下的面积必须等于一个单位。
递减：K'(x) ≤ 0

不同类型的一维内核

DENCLUE 使用密度吸引子的概念，作为在周围形成簇的观察的代表。

具有两个密度吸引子的二维内核示例

有两种类型的集群：

中心定义的簇：它是通过将吸引到给定密度吸引子的点的密度分配来形成的。
任意形状的簇：由具有高密度（>给定阈值）的密度吸引子合并而成

算法

通过添加所有数据点的密度函数来估计数据空间的整体核密度函数。
通过识别构成估计密度函数的局部最大值的密度吸引子来形成簇。
使用爬山算法和估计的密度函数的梯度计算局部最大值。

优点

比 DBSCAN 快得多。
灵活适用于任意形状的集群。
适用于任何大小的数据集。

缺点

对于高维数据集不能很好地扩展。
取决于几个超参数。
仅适用于数值数据。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

AIU人工智能学院

2022-2-21 16:01:38

18、OPTICS聚类算法（Ordering Points To Identify Clustering Structure）

由于 DBSCAN 的性能取决于其参数设置，Optics 扩展了 DBSCAN，使其对参数设置和查找簇之间的结构不太敏感。直觉是，基于两个参数，高密度区域将在低密度区域之前首先被处理：

核心距离：至少包含 MinPts 观测值的最小半径 eps。
可达距离：使两个观测值密度可达的最小距离。

话虽如此，OPTICS根据它们的密度结构形成有序的观察簇。此外，它使用所有点的可达距离的计算值作为阈值，以分离数据和异常值（位于红线上方的点）。

算法

从数据集中选择一个随机数据点。
通过计算 eps-neighborhood 内的核心距离来判断所选点是否为核心点。
如果选择的点是核心点，那么对于彼此的观察，更新与之前选择的点的可达距离。此外，将新观察插入到 OrderSeeds 中，其中包含按可达距离排序的点。
如果所选点不是核心点，则移动到 OrderSeeds 中的下一个观测值，如果 OrderSeeds 为空，则移动到初始数据点中的下一个观测值。
重复直到遍历所有观察。

优点

能够发现内在和分层嵌套的聚类结构。
需要与 DBSCAN(eps 和minPts )相同数量的参数，但不需要 eps，这降低了算法的运行时复杂度。
能够找到具有不同密度的集群。

缺点

没有密度下降的集群的问题。
仍然对参数minPts敏感。

应用程序
光学可用于异常检测（发现异常值）。

异常检测

结论

在本文中，您了解了如何将聚类分析用作一种强大的技术来发现模式并从数据中提取见解。但是，决定是否选择给定的聚类算法取决于几个标准，例如聚类应用程序的目标（例如，主题建模、推荐系统……）、数据类型等。此外，数据挖掘团队有责任决定选择最适合他们需要的。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

HHqLLise

2022-3-13 13:55:00

想试试但又怕不成功

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

piiroja

2022-3-19 16:47:33

thx for sharing~

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群