论文部分内容阅读
数据挖掘是当前人工智能研究领域非常活跃的一部分,是后者的核心内容之一。粗糙集理论是一种能够处理不精确和不确定性问题的数学工具,有着坚实的理论基础。本文主要围绕基于粗糙集理论中属性重要度加权的朴素贝叶斯分类模型展开研究工作,针对后者在现实问题中依据的假设不易成立的问题,从应用和理论两个方面对朴素贝叶斯分类模型和粗糙集理论相结合应用于工程实践进行了较深入的研究。主要工作包括以下三方面的内容:(1)系统分析了朴素贝叶斯分类模型的不足,根据某三甲医院提出的病案分类和智能导医的需求,提出了重点改进方向。(2)针对朴素贝叶斯分类模型,分析了粗糙集理论中可以改善其不足和缺点的理论与算法,并据此提出了两者相结合的新的分类模型。该分类模型以属性约简为基础,以属性重要度加权为手段,最后计算出每个属性在分类中的权值。实验表明,上述新的分类模型与朴素贝叶斯分类模型相比,在时间消耗相近的情况下,能够有效地提高分类效果,提升准确率。(3)在研究和分析医院病案的基础上,提出了对医院病案自动分类和智能导医的整体解决方案。首先,针对医院现有海量病案进行整理,提取有用数据组成决策表;然后,利用属性约简对数据进行简化;接下来,对剩余属性进行重要度求值,再对描述词进行二次加权,以便突出病案或用户描述的重点词汇,将二次加权的值作为对属性权值的正确修正参数进行最终的分类计算;最后,通过面向对象分析和程序设计,开发了一套基于粗糙集加权的朴素贝叶斯分类模型系统,并成功应用于医疗领域中的病案分类和智能导医系统。实验表明,本文提出的分类模型相较于朴素贝叶斯分类模型具有更高的准确率,是一种比较成功的分类模型。