各位达人请教了,本人刚学习数据挖掘,有很多傻问题没有方向。
最近在做一些简单的数据挖掘,想通过聚类对客户的某些属性进行分类。
在通过KMeans和EM算法后会得到几个分类的中心点,但不知道如何定义这些分类的边界。
比如对用户消费金额做聚类,产生三个中心点如下:
kMeans
======
Number of iterations: 7
Sum of within cluster distances: 248.1496183206104
Missing values globally replaced with mean/mode
Cluster centroids:
Cluster#
Attribute Full Data 0 1 2
(5000) (1128) (2208) (1664)
=====================================================
MGCM_PT_KDJ 378 1132.5 210 420
Clustered Instances
0 1129 ( 23%)
1 2267 ( 45%)
2 1604 ( 32%)
但不知道这0类,1类,2类如果要设定一个数值区间的话,应该是从多少到多少。
同样用EM方法对同一数据集做聚类得到如下结果:
EM
==
Number of clusters: 3
Cluster
Attribute 0 1 2
(0.41) (0.27) (0.33)
=========================================
MGCM_PT_KDJ
mean 199.1228 384.1965 945.5542
std. dev. 17.6059 52.5456 258.3787
Clustered Instances
0 2087 ( 42%)
1 1312 ( 26%)
2 1601 ( 32%)
Log likelihood: -6.45408
也不知如何定义这三类的边界应该设为从多少到多少。
救急,谢谢大家先!