一、聚类:按照数据之间的相似性,对数据集进行分组或分类(簇, cluster)的过程,试图使类内差距最小化,类间差距最大化。
利用聚类结果,可以提取数据集中隐藏的信息,对未来数据进行预测和分类。应用于
数据挖掘、模式识别、图像处理、经济学……
二、聚类在数据挖掘中的典型应用:
聚类分析可以作为其它算法的预处理步骤:利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。也可将聚类结果用于进一步关联分析,以获得进一步的有用信息。
可以作为一个独立的工具来获得数据的分布情况:聚类分析是获得数据分布情况的有效方法。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物种群划分等方面具有广阔的应用前景。
聚类分析可以完成孤立点挖掘:许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为的存在。
三、聚类分析的目标
四、聚类分析方法的分类
五、数据相似性的度量-距离
六、聚类方法
K-均值算法
k-means算法的性能分析
k-中心点算法(k-medoids)
PAM算法特点
AGNES算法
DIANA算法
层次聚类方法的改进
……