[傻问题]K-Means和EM聚类后，如何确定类别的边界？

6387

收藏 2013-01-08

各位达人请教了，本人刚学习数据挖掘，有很多傻问题没有方向。

最近在做一些简单的数据挖掘，想通过聚类对客户的某些属性进行分类。
在通过KMeans和EM算法后会得到几个分类的中心点，但不知道如何定义这些分类的边界。
比如对用户消费金额做聚类，产生三个中心点如下：
kMeans
======

Number of iterations: 7
Sum of within cluster distances: 248.1496183206104
Missing values globally replaced with mean/mode

Cluster centroids:
                     Cluster#
Attribute    Full Data       0       1       2
               (5000) (1128) (2208) (1664)
=====================================================
MGCM_PT_KDJ       378 1132.5    210    420

Clustered Instances

0    1129 ( 23%)
1    2267 ( 45%)
2    1604 ( 32%)

但不知道这0类，1类，2类如果要设定一个数值区间的话，应该是从多少到多少。
同样用EM方法对同一数据集做聚类得到如下结果：
EM
==

Number of clusters: 3

            Cluster
Attribute          0       1       2
            (0.41) (0.27) (0.33)
=========================================
MGCM_PT_KDJ
  mean       199.1228 384.1965 945.5542
  std. dev.    17.6059  52.5456 258.3787

Clustered Instances

0    2087 ( 42%)
1    1312 ( 26%)
2    1601 ( 32%)

Log likelihood: -6.45408

也不知如何定义这三类的边界应该设为从多少到多少。

救急，谢谢大家先！