粗糙集与模糊集比较_粗糙集在数据挖掘中的应用
粗糙集与模糊集比较
粗糙集与模糊集都能处理不完备( imperfect) 数据, 但方法不同, 模糊集注重描述信息的含糊(vagueness) 程度, 粗糙集则强调数据的不可辨别( indiscern ib ility) , 不精确( imp recision) 和模棱两可 (am b igu ity). 使用图像处理中的语言来作比喻, 当论述图像的清晰程度时, 粗糙集强调组成图像象素的大小, 而模糊集则强调象素存在不同的灰度. 粗糙集研究的是不同类中的对象组成的集合之间的关系, 重在分类; 模糊集研究的是属于同一类的不同对象的隶属的关系,重在隶属的程度. 因此粗糙集和模糊集是两种不同的理论, 但又不是相互对立的, 它们在处理不完善数据方面可以互为补充.
粗糙集在数据挖掘中的应用
粗集理论在数据挖掘中的应用相当广泛,涉及的领域有医疗研究、市场分析、商业风险预测、气象学、语音识别、工程设计等.在众多的数据挖掘系统中,粗集理论的作用主要集中在以下几个方面:
1、数据约简
粗集理论可提供有效方法用于对信息系统中的数据进行约简.在数据挖掘系统的预处理阶段,通过粗集理论删除数据中的冗余信息(属性、对象以及属性值等),可大大提高系统的运算速度。
2、规则抽取
与其它方法(如神经网络)相比,使用粗集理论生成规则是相对简单和直接的.信息系统中的每一个对象既对应一条规则,粗集方法生成规则的一般步骤为:(1)得到条件属性的一个约简,删去冗余属性;(2)删去每规则的冗余属性值;(3)对剩余规则进行合并。
3、增量算法
面对数据挖掘中的大规模、高维数据,寻找有效的增量算法是一个研究热点。
4、与其他方法的融合
粗集理论与其它方法如神经网络、遗传算法、模糊数学、决策树等相结合可以发挥各自的优势,大大增强数据挖掘的效率。