摘要:基于信息熵的有关理论,提出了一种新的连续属性的自动聚类算法。首先介绍了Shannon熵的概念及其两个重要的定理,基于信息的不确定测度,提出了一种Shannon熵的准则函数φ,并且指出了该准则函数必须满足的6条原则。其次,基于该准则函数,引出了一种针对单个连续属性自动聚类的FUSINTER算法。由于实际信息系统中有多个连续属性,这就需要对多个连续属性分别使用FUSINTER算法进行离散,并且要求最终保证整个信息系统离散后是相容的和一致的,而且各个属性拥有较少的分割区间。最后,本文以干线飞机外形参数的变化趋势与其更新换代的关系来说明文中提出的连续属性离散化过程,并展示了该聚类算法的有效性。本文提出的方法可以用于机器学习或
数据挖掘的数据前处理。http://www.cqvip.com//QK/92509A/200103/5281195.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)