论文部分内容阅读
朴素贝叶斯分类算法由于其简单且高效的优点成为数据挖掘十大经典算法之一,但是该算法在进行分类时假定属性间是彼此独立的。不过,在现实应用当中这类假设通常无法成立。在本文中,通过对数据预处理和减弱朴素贝叶斯算法的条件独立性假设来提高算法的分类准确率。主要研究工作如下:离散化技术是经常被用到数据预处理当中的技术。已知的数据离散化方法通常在处理不平衡数据集时表现不是非常理想。本文提出了一种新的离散化算法ICAIM算法,通过结合三个不同离散化标准的优点来改善CAIM算法的性能。ICAIM算法提高了离散区间的质量,使离散化后的数据集的分类性能更好,尤其是不平衡数据集。同时,ICAIM算法的运行时间较CAIM算法有明显提高。隐朴素贝叶斯分类算法忽视了数据集中冗余或者无关属性对分类结果造成的不利影响,本文针对这一缺陷,提出了采用CFS算法对属性实施选取操作,选出一组最优的属性子集合。在减弱朴素贝叶斯算法的条件独立性假设的众多方法之中,属性权重法早已引起了研究者的重视。为进一步减弱条件独立性假设引发的不利影响,本文将根据各属性对分类结果的影响程度,为不同的属性赋予相应的权重。本文提出的权重获取方法不仅考虑了属性与属性间的依赖关系,而且考虑了属性与类属性间的依赖关系,使每个属性获取到的权重更加合理。现有的属性加权方法仅将学习到的属性权重纳入朴素贝叶斯分类公式中,而不将权重纳入其条件概率估计中,本文使用一种被称之为深度属性加权的方法,能够提高朴素贝叶斯模型的质量。最后把本文所提出的ICAIM和SW-HNB算法应用到冠心病中医辅助诊疗系统当中。首先通过ICAIM算法对冠心病临床数据进行离散化处理,然后再用SW-HNB算法对患者的病症分类。实验证明该系统可以有效地起到辅助诊疗的效果。