论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。人们希望将这些数据转换成有用的信息和知识,以便更好地利用这些数据,给决策制定提供数据支持。但当前的数据库系统无法有效的发现海量数据背后隐藏的具有决策意义的知识。面对“数据爆炸,知识贫乏”的现象,20世纪90年代,数据挖掘技术和相应科研课题应运而生,并得以蓬勃发展,目前数据挖掘技术已在科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业和通信网络管理等行业得到广泛应用。因此,数据挖掘方法的研究具有重要的理论与实际意义。
本文分析讨论了当前数据挖掘现状及存在的问题,在此基础上,尝试将粗糙集理论和模糊集理论及信息熵理论结合起来,应用于数据挖掘方法的研究。主要工作如下:
首先,从相似概念出发,对已知给定数据进行模糊聚类,把标准粗糙集的完全等价关系转化为模糊等价关系,即将标准粗糙集中的完全等价划分转换为模糊聚类划分,推广了标准粗糙集方法的应用。
然后,将相似类中的连续属性值利用动态层次模糊聚类方法转化为离散数据,解决了粗糙集模型无法处理连续属性值的问题;在此基础上,进行属性约简。
最后,应用粗糙集理论,对某一概念通过一对近似集合进行近似表示,挖掘出具有一定支持度和可信度的决策规则,同时引入信息熵方法,通过求取各条件属性信息增益值简化规则集,进而生成最优决策规则集。该方法考虑了各种理论的结合,也考虑到各自的相对独立性,并通过实例说明了预测的准确性。