关于SAS的两个聚类问题

2909

收藏 2010-07-29

在实际应用中, 越来越感到SAS的两个聚类过程的局限性,
1. 一个是K-means聚类: SAS是用fastcluster实现的,但是非常遗憾,不知道SAS为什么只用欧几里得距离,而不能用相似度等度量. 看了SAS的相关文档,大概知道它用的目标优化函数是一个欧式距离平方和,但是还是不知道为什么不用相似度矩阵作为input data.
2. 另外一个是系统聚类: SAS是用cluster过程步实现,尽管该过程步可以把相似度聚类或距离矩阵等下三角矩阵作为input data, 但是仍然有一个致命的缺陷,那就是一旦下三角矩阵超过1.5万行*1.5万列时,SAS就变成老年痴呆. 程序跑死.
最后,数据挖掘领域出现的很多新的聚类算法,如DBSCAN,BIRTH等算法,SAS仍然没有对应的算法包. 所以总体上,个人感觉SAS的聚类算法包在以后的算法开发中还有很长的路要走.