论文部分内容阅读
随着数据库的不断增长,自动从数据库中获取有用的知识成为人们日益迫切的需要。粗集理论凭借其独特的优势而在数据挖掘领域中具有越来越重要的地位。本文在对粗集及其相关理论的研究基础上,首先给出了一种基于推广粗集模型和信息熵的规则不确定性量度,该不确定性量度适于评价从有噪音数据中提取的规则;鉴于实际应用中经常能遇到噪音的问题,本文提出广义极小极大规则学习方法,同时还提出了广义极大极小规则转换模型GMM;最后,本文基于聚类方法、结合粗集理论提出了一种新的连续属性离散化方法。实验结果表明,采用GMM模型简化决策树规则,既能简化单个规则,又能减少规则的总数量,更能排除数据中噪音的干扰,提高规则的分类精度。