这两天一直在处理一组数据,探索合适的聚类方法以达到期望的目标,发现基于R现有的常用数据挖掘包(参考帖子http://blog.sina.com.cn/s/blog_99dc1f0a0102vysy.html)的几乎所有算法均不能达到我想要的效果{:3_58:}
。。
现在的很是迷茫啊。。{:3_55:}
求助高手一探究竟。。ps:尝试了去除极端值依旧无法实现
数据的横纵坐标代表的是数据的两个价值维度,数据点越靠近右上角则越优。很明显有三处是集中比较密集的区域,所以我预想的聚类效果应该是这样的:
又或者是这样的分成两类:
然而实际上用kmeans聚出来的是这样的:kmeans(test,3)
一定是我的代码有问题所以我改了下,调整为kmeans(test,3,nstart=30)结果是这样的:
感觉kmeans不靠谱,又用基于密度的dbscan算法试了下:
dbscan(test, eps = 0.01, MinPts = 10)
嗯效果很拙劣。。又试了下传说中的SVM算法,结果是这样的:
很迷茫,求论坛大神指点。。
这是数据