论文部分内容阅读
粗糙集理论是一种处理模糊和不确定性知识的新型数学工具,已经在机器学习、知识获取、决策分析、知识发现、专家系统和模式识别等领域取得了一些成功的应用,它与概率方法、模糊集方法和证据理论方法等其他处理不确定性问题理论的最显著的区别是:它无需提供问题所需处理的数据集合之外的任何先验信息。 本文以粗糙集理论为工具,对从数据库中得出潜在的、有用的知识的过程进行了详细的研究,其中包括数据的预处理、决策表的属性约简、决策表的决策算法及决策表中样本的分类算法等内容。全文主要分以下四个部分: 第一部分:详细研究了数据挖掘的过程,该部分包括四章(3-6章)。第三章首先简要介绍了现有的数据补齐方法及分析了这些算法中存在的问题,然后针对这些问题结合不同的属性类型,分别给出了有效的补齐方法。第四章主要研究了连续属性的离散化算法,首先详细介绍了基于熵的离散化算法(EBD)并对存在的问题进行了分析,然后根据数据挖掘中聚类的基本思想,对该算法进行了改进,给出了一种新的离散化方法。同时,本章中给出了一种划分关于另一种划分的置信度的定义,根据置信度的性质,提出了一种基于置信度的连续属性离散化方法。此两种方法最大的优点是能自动调节阈值,从而解决了离散化过程中阈值的难确定问题,而且离散化结果能保证决策表的相容性。第五章主要研究了决策表的属性约简算法,首先针对基于可辨识矩阵和逻辑运算相结合的属性约简算法中存在的问题进行了分析,然后给出了一种改进的约简算法,最后将该算法中的可辨识矩阵与文[21]中的可辨识矩阵进行了比较,得出本文定义的可辨识矩阵在计算量上远远少于文[21]中定义的可辨识矩阵。另外,本章还给出了一种求决策表最小属性约简算法—基于广义信息表求最小属性约简算法。该算法的关键是构造广义信息表,根据广义信息表的特点,决策表的属性核及约简可以由广义信息表中得出,该算法操作简单,计算效率高,便于计算机编程实现。第六章是关于求决策表的最小决策算法问题,首先结合属性约简算法的思想,给出了几种规则约简算法,然后得出最小决策算法,并对本文所给出的决策树与ID3决策树进行了比较,经过比较可知,在相容决策表的情况下,本文中构造的决策树不仅较简单,而且该树中的所有属性集一定是一个约简,但用信息增益得到的决策树不一定有这个性质。 第二部分即第七章:讨论了连续值域决策表与不完备决策表的直接挖掘过程,也就是把粗糙集的理论方法扩充到连续值域决策表与不完备决策表,对于连续值域决策表及不完备决策表,直接建立知识分类与知识发现方法,这样发现的知识更符合实际。 第三部分即第八章:对未知样本的分类算法进行了研究,首先对朴素贝叶斯分类算法中存在的不足进行了讨论,然后根据最大相似度原则,给出了一种基于相似度的