最近学习数据挖掘,参考网上和相关资料,分享一下自己的一些学习成果。
鸢尾花数据集的离散化与数据挖掘中的ChiMerge算法相关,用R语言实现。
相关性度量也可以用于离散化,ChiMerge基于卡方的离散化方法
问题描述:
ChiMerge是监督的、自底向上的数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止标准。
(1)、简述ChiMerge如何工作。
(2)、取鸢尾花数据集作为待离散化的数据集合,鸢尾花数据集可以从UCI机器学习数据库得到。使用ChiMerge方法,对四个数值属性分别进行离散化。(令停止条件为:max-interval=6)。你需要写一个小程序,以避免麻烦的数值计算。提交你的简要分析和检验结果:分裂点、最终的区间以及源程序文档。
问题分析及回答:
(1)ChiMerge的工作原理:
ChiMerge算法过程:
第一步:初始化:
根据要离散的属性对实例进行排序;每个实例属于一个区间。
第二步:合并区间,又包括两步骤:
1、计算每一对相邻区间的卡方值;
2、将卡方值最小的一对区间合并。
用R软件实现:
结果如下图