摘要:现实应用中常常涉及许多连续的数值属性,而目前许多机器学习算法则要求所处理的属性具有离散值.基于信息论的基本原理,提出一种新的有监督离散化算法WILD,它可以看成是决策树离散化算法的一种扩充,其主要改进在于考虑区间内观测值出现的频度,采用加权信息损耗作为区间离散化的测度,以克服决策树算法离散不均衡的问题.该算法非常自然地采用了自底向上的区间归并方案,可以同时归并多个相邻区间,有利于提高离散化算法的速度.实验结果表明该算法能够提高
机器学习算法的精度.
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)