全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
6231 2
2013-01-08
各位达人请教了,本人刚学习数据挖掘,有很多傻问题没有方向。

最近在做一些简单的数据挖掘,想通过聚类对客户的某些属性进行分类。
在通过KMeans和EM算法后会得到几个分类的中心点,但不知道如何定义这些分类的边界。
比如对用户消费金额做聚类,产生三个中心点如下:
kMeans
======

Number of iterations: 7
Sum of within cluster distances: 248.1496183206104
Missing values globally replaced with mean/mode

Cluster centroids:
                         Cluster#
Attribute     Full Data         0         1         2
                 (5000)    (1128)    (2208)    (1664)
=====================================================
MGCM_PT_KDJ         378    1132.5       210       420


Clustered Instances

0      1129 ( 23%)
1      2267 ( 45%)
2      1604 ( 32%)

但不知道这0类,1类,2类如果要设定一个数值区间的话,应该是从多少到多少。
同样用EM方法对同一数据集做聚类得到如下结果:
EM
==

Number of clusters: 3


               Cluster
Attribute            0        1        2
                (0.41)   (0.27)   (0.33)
=========================================
MGCM_PT_KDJ
  mean         199.1228 384.1965 945.5542
  std. dev.     17.6059  52.5456 258.3787

Clustered Instances

0      2087 ( 42%)
1      1312 ( 26%)
2      1601 ( 32%)


Log likelihood: -6.45408

也不知如何定义这三类的边界应该设为从多少到多少。

救急,谢谢大家先!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-7-10 10:49:20
同问,有人知道吗,thanks。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-7-11 17:19:26
光有一个均值是不够的,你可以先分析下消费金额在每个类别的分布。另外你的目的是什么,是为了对新样本归类??
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群