全部版块 我的主页
论坛 数据科学与人工智能 人工智能
1964 0
2015-08-04
下面以一个汽车销售的案例来介绍聚类分析在市场细分中的应用。

1、商业目标
业务理解:数据名称《汽车销售.csv》。该案例所用的数据是一份关于汽车的数据,该数据文件包含销售值、订价以及各种品牌和型号的车辆的物理规格。订价和物理规格可以从 edmunds.com 和制造商处获得。定价为美国本土售价。如下:


表1:数据视图
业务目标:对市场进行准确定位,为汽车的设计和市场份额预测提供参考。
数据挖掘目标:通过聚类的方式对现有的车型进行分类。

2、数据准备
通过数据探索对数据的质量和字段的分布进行了解,并排除有问题的行或者列优化数据质量。


第一步,我们使用统计节点审核数据的质量,从审核结果中我们发现存在缺失的数据,如下图所示:



第二步,对缺失的数据进行处理,我们选择使用缺失填充节点删除这些记录。配置如下:

3、建模
我们选择层次聚类进行分析,尝试根据各种汽车的销售量、价格、引擎、马力、轴距、车宽、车长、制动、排量、油耗等指标对其分类。
因为层次聚类不能自动确定分类数量,因此需要我们以自定义的方式规定最后聚类的类别数。层次聚类节点配置如下(默认配置):


可以使用交互表或者右击层次聚类节点查看聚类的结果,如下图所示:


再使用饼图查看每个类的大小。饼图配置如下:


结果如下:


从图中可见,分成的三个类样本数差异太大,cluster_0和cluster_1包含的样本数都只有1,这样的分类是没有意义的,因此需要重新分类。我们尝试在层次聚类节点的配置中指定新的聚类方法:完全。新的聚类样本数分布如下:


cluster_0、 cluster_1、cluster_2的样本数分别为:50、9、93。


执行后输出树状/冰柱图,可以从上往下看,一开始是一大类,往下走就分成了两类,越往下分的类越多,最后细分到每一个记录是一类,如下所示:


我们可以再使用条形图查看每类的销售量、平均价格,如下图所示:


每类总销量分布图


每类平均销量分布图


每类平均价格分布图

我们再看一下每类的销售额分布情况。首先,我们需要使用Java代码段(简单)节点派生销售额字段,配置如下:


再使用饼图查看销售额分布情况,cluster_0、 cluster_1、cluster_2的市场份额分别为:32.39%、0.53%和67.08%,如下图所示:

4、小结

通过这个案例,大家可以发现聚类分析确实很简单。进行聚类计算后,主要通过图形化探索的方式评估聚类合理性,以及在确定聚类后,分析每类的特征。

本文源自:http://wiki.smartbi.com.cn/pages/viewpage.action?pageId=13599852


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群