全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
3589 5
2012-09-11
请教一下,现在对假如1万个样本进行聚类,问题是这些样本非常不符合正态分布,大约有1%-2%的样本变量值非常高,而50%左右样本变量值非常低,这样做出来的聚类结果是:1万个样本里最多只有1000个样本被分开成几类,剩下的9千个左右样本始终被归在一类里了。
即那些极值对聚类结果影响很大,我用的是k-means方法,就算预先设定的类再多,比如30个,最后的结果也只是把那些极值一个个分开了,依然有8-9千的样本聚在一起。

我的意思是是否该去掉那些极值,有什么原则来去除?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-9-11 17:01:49
我用分层聚类往往遇上这个事。。Kmeans还好。。
如果真是极致的问题,可以考虑挖掉极值。但是从kmeans算法来看,似乎不会这样?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-11 17:13:49
keensword 发表于 2012-9-11 17:01
我用分层聚类往往遇上这个事。。Kmeans还好。。
如果真是极致的问题,可以考虑挖掉极值。但是从kmeans算法 ...
为啥不会遇到呢? 这1万个样本的值差异太大了:接近98%的样本某个变量值在15以内,而有50-60%左右样本值在0-1之间,有2%左右值在20-300之间。
所以无论我怎么扩大类的数目,大部分样本还是没有被分开。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-11 17:14:52
keensword 发表于 2012-9-11 17:01
我用分层聚类往往遇上这个事。。Kmeans还好。。
如果真是极致的问题,可以考虑挖掉极值。但是从kmeans算法 ...
现在就是想去掉极值,所以想问下有没有什么规则是定义极值方面的。按规则去掉
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-11 18:09:33
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-9-12 08:50:10
bojanliu 发表于 2012-9-11 17:14
现在就是想去掉极值,所以想问下有没有什么规则是定义极值方面的。按规则去掉
你把聚类结束样本较少的类去掉呗
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群