全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
3643 0
2015-02-15
点集是适合于聚类的数据集,每个点都是每空间下的对象。欧式空间下的点就是实数向量。向量长度是空间维度,向量的分量是所表示点的坐标。
曼哈顿距离:每个维度上的差值之和。
Loo距离:所有维度上差值最大值。
距离必须满足的三个条件:
(1)距离非负,到自身的距离为0
(2)距离有对称性,计算点之间的距离无所谓先后
(3)遵守三角不等式|AB|+|BC|>=|AC|

两类聚类算法:
(1)层次或凝聚式算法。最开始把每个点都看成一个簇。然后簇与簇之间按照近度进行组合,接近度可以基于接近的不同含义采用不同的定义。如果进一步的组合导致非期望的结果出现,组合过程就停止。比如事先给定簇的数量,或者使用簇的紧密度测度方法,一旦两个小簇组合后得到的簇内的点分散的区域较大就停止簇的构建。
(2)第二类涉及点分配过程,即按照顺序考虑每个点,并将它分配到最合适的簇中。这个过程通常都有短暂的簇估计阶段。一些变形的算法允许临时的簇合并或分裂的过程,或者当点为离群点时允许不将该点分配到任何簇中。

数据挖掘中除了按照聚类过程,还存在两种划分聚类算法的方式:
(a)是否假定在欧式空间中聚类?算法是否在任意测度距离下都有效?本质区别在欧式空间下可以将点集合概括为质心,即所有点的平均。而在非欧空间下,没有质心的概念,就需要寻找其他簇概括的方法。
(b)算法是否假设数据足够小能够放入内存?或者说数据是否必须存放在二级存储上。比如处理大量数据的算法往往不能检查所有的点对,所以需要寻找捷径。不能将所有簇的所有点放入内存,所以将簇的概括表示放在内存中是有必要的。

聚类分析又叫群分析,是研究样品或值表进行分类的一种多元统计方法。
按聚类的方式分六类。按不同的分类对象分R型和Q型,R型对变量分类,Q型对样品分类。
(1)系统聚类法:每个对象自成一类,每次将相似的两类合并。并类过程可用谱系图表示。和层次聚类描述类似。
(2)调优法,动态聚类法:对n个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到合理。
(3)最有分割法:将所有的样品看成一类然后按某种最优准则分为两类,三类直到K类。使用于有序样品的分类,也称为有序样品的聚类法。
(4)模糊聚类法:利用模糊集理论来处理分类问题,对经济淋雨汇总具有模糊特征的两态数据或多态数据有明显分类效果。
(5)图论聚类法:利用图论中的最小支撑树的概念来处理分类问题。
(6)聚类预报法:利用聚类方法处理预报问题,可以用聚类代替回归,判别进行灾害性天气预报。

两态数据,多态数据?



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群