论文部分内容阅读
在数据挖掘领域,朴素贝叶斯分类算法以其简单和高效的特点得到了广大学者的关注。但是朴素贝叶斯的条件独立假设往往难以得到满足,从而对算法的分类性能带来了或多或少的影响,因此,通过将频繁项集作为朴素贝叶斯的训练集,进而降低条件独立性假设对分类性能造成的影响,提高分类器的分类准确率。其中,本文主要的研究工作如下:(1)详细分析现有的连续属性离散化方法,通过探讨如何减少离散化过程中的信息丢失,提出了一种基于属性低频区域的低频离散化算法(LFD)。该方法是通过在频率较低的属性区间设置分割点,从而有效减少数据丢失。(2)通过对现有关联规则挖掘算法的研究与分析,本文将低频离散化、加权多最小支持度与全置信度相结合,提出了一种基于低频离散化的加权多最小支持度关联规则挖掘算法(WM_SaImplingHT)。该算法首先采用低频离散化算法对连续属性进行离散化,然后在挖掘频繁项集时对数据项设置各自的权重和最小支持度,并通过全置信度去除掉其中的虚假模式,进而获得较为干净的频繁项集。(3)针对隐藏朴素贝叶斯分类器的条件独立假设无法满足以及无法处理0概率属性的缺点,本文提出一种基于频繁项集的隐藏朴素贝叶斯算法(WL-HNB),该算法通过利用关联规则获得的频繁项集作为训练集,结合改进的拉普拉斯估计和加权操作,进一步降低了朴素贝叶斯条件独立假设带来的影响。通过与传统分类算法的对比,实验结果表明在大多数数据集中,该算法的分类性能优于传统分类算法。(4)将WM_SamplingHT算法和WL-HNB算法应用于冠心病中医诊疗辅助系统,验证该系统的分类性能,通过与系统中的其他分类算法进行对比,实验结果表明WM_SamplingHT算法成功挖掘出了系统数据库中的频繁项集与关联规则,WL-HNB算法也实现了对频繁项集的分类,从而对冠心病的诊疗起到了一定的辅助功能。