全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2909 2
2010-07-29
在实际应用中, 越来越感到SAS的两个聚类过程的局限性,
1. 一个是K-means聚类: SAS是用fastcluster实现的,但是非常遗憾,不知道SAS为什么只用欧几里得距离,而不能用相似度等度量. 看了SAS的相关文档,大概知道它用的目标优化函数是一个欧式距离平方和,但是还是不知道为什么不用相似度矩阵作为input data.
2. 另外一个是系统聚类: SAS是用cluster过程步实现,尽管该过程步可以把相似度聚类或距离矩阵等下三角矩阵作为input data, 但是仍然有一个致命的缺陷,那就是一旦下三角矩阵超过1.5万行*1.5万列时,SAS就变成老年痴呆. 程序跑死.
最后,数据挖掘领域出现的很多新的聚类算法,如DBSCAN,BIRTH等算法,SAS仍然没有对应的算法包. 所以总体上,个人感觉SAS的聚类算法包在以后的算法开发中还有很长的路要走.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-7-29 09:12:20
嗯,还是clementie的聚类比较好用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2011-4-2 22:46:57
用相似度矩阵作为input data.
SAS有这个功能的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群