这个帖子当做自己学习过程中的心得!
机器学习方法分为监督学习和非监督学习,那么分类方法和聚类方法分别对应它们之间的哪一种呢?
spss中的系统聚类法常称为层次聚类法。它有两种类型,一种为Q型聚类,是直接对样本进行聚类;一种叫做R型聚类,是对样本指标进行聚类。
spss中的聚类方法包括组间连接、组内连接、最近邻元素、最远邻元素、质心聚类、中位数聚类、ward法。
————首先,将每个点视作一类————
组间连接(Between-groups
linkage
):合并两类后使得所有类间的平均距离最小。
组内连接(Within-groups linkage
):合并两类后使得组间的平均距离最小。
最近邻元素(Nearest
neighbor或者 single linkage method
):取两个类中距离最近的点作为两类之间的距离。
最远邻元素(fastest neighbor或者complete linkage method):取两个类中距离最远的点作为两类之间的距离。
质心聚类(Centroid
clustering
):两类之间的距离定义为两个类中所有样本的重心之间的距离。
中位数聚类(Median
clustering
):两类之间的距离定义为两个类中所有样本的中位数之间的距离。
Ward's method:最小离差平方和法。使得类内所有样本之间的离差平方和(各项与平均项之差的平方和)最小,类间的离差平方和尽可能大。
上面的系统聚类法和K-Means均属于非监督学习,而K近邻法(简单来说,就是将未标记的案例归为与它最相似的带有标记的案例所在的类)属于监督学习,是一种分类方法。