全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
19461 14
2015-09-18
最近学习数据挖掘,参考网上和相关资料,分享一下自己的一些学习成果。

鸢尾花数据集的离散化与数据挖掘中的ChiMerge算法相关,用R语言实现。
相关性度量也可以用于离散化,ChiMerge基于卡方的离散化方法

问题描述:
ChiMerge是监督的、自底向上的数据离散化方法。它依赖于卡方分析:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止标准。

(1)、简述ChiMerge如何工作。

(2)、取鸢尾花数据集作为待离散化的数据集合,鸢尾花数据集可以从UCI机器学习数据库得到。使用ChiMerge方法,对四个数值属性分别进行离散化。(令停止条件为:max-interval=6)。你需要写一个小程序,以避免麻烦的数值计算。提交你的简要分析和检验结果:分裂点、最终的区间以及源程序文档。
iris.txt
大小:(2.68 KB)

只需: 2 个论坛币  马上下载


问题分析及回答:

(1)ChiMerge的工作原理:

ChiMerge算法过程:

第一步:初始化:

       根据要离散的属性对实例进行排序;每个实例属于一个区间。

第二步:合并区间,又包括两步骤:

       1、计算每一对相邻区间的卡方值;

       2、将卡方值最小的一对区间合并。

用R软件实现:
鸢尾花R语言.txt
大小:(2.96 KB)

只需: 10 个论坛币  马上下载


结果如下图
R得到的鸢尾花数据集离散化结果
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-9-19 16:14:03
90°S 发表于 2015-9-18 22:46
最近学习数据挖掘,参考网上和相关资料,分享一下自己的一些学习成果。

鸢尾花数据集的离散化与数据挖掘 ...
好的?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-19 16:30:08
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-24 14:44:45
yangming98 发表于 2015-9-19 16:14
好的?
代码和数据都是好的,拖进去就可以用了
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-31 16:48:41
初学者
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-4-3 16:04:53
资料感觉很不错,希望能有用
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群