聚类算法一般分为分割和分层两种。
分割聚类算法通过优化评价函数把数据集分割为K个部分,它需要K作为输人参数。
典型的分割聚类算法有K-means算法, K-medoids算法、CLARANS算法。
分层聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它优于分割聚类算法的一个明显的优点,其缺点是终止条件必须具体指定。
典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。
k 均值聚类法 快速高效,特别是大量数据时,准确性高一些,但是需要你自己指定聚类的类别数量,采用的是将N*P的矩阵X划分为K个类,使得所有类内对象与该类中心点之间的距离和最小。