基于连续属性的贝叶斯分类方法应用研究

来源 :大连海事大学 | 被引量 : 5次 | 上传用户:genesis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域,朴素贝叶斯分类算法以其简单和高效的特点得到了广大学者的关注。但是朴素贝叶斯的条件独立假设往往难以得到满足,从而对算法的分类性能带来了或多或少的影响,因此,通过将频繁项集作为朴素贝叶斯的训练集,进而降低条件独立性假设对分类性能造成的影响,提高分类器的分类准确率。其中,本文主要的研究工作如下:(1)详细分析现有的连续属性离散化方法,通过探讨如何减少离散化过程中的信息丢失,提出了一种基于属性低频区域的低频离散化算法(LFD)。该方法是通过在频率较低的属性区间设置分割点,从而有效减少数据丢失。(2)通过对现有关联规则挖掘算法的研究与分析,本文将低频离散化、加权多最小支持度与全置信度相结合,提出了一种基于低频离散化的加权多最小支持度关联规则挖掘算法(WM_SaImplingHT)。该算法首先采用低频离散化算法对连续属性进行离散化,然后在挖掘频繁项集时对数据项设置各自的权重和最小支持度,并通过全置信度去除掉其中的虚假模式,进而获得较为干净的频繁项集。(3)针对隐藏朴素贝叶斯分类器的条件独立假设无法满足以及无法处理0概率属性的缺点,本文提出一种基于频繁项集的隐藏朴素贝叶斯算法(WL-HNB),该算法通过利用关联规则获得的频繁项集作为训练集,结合改进的拉普拉斯估计和加权操作,进一步降低了朴素贝叶斯条件独立假设带来的影响。通过与传统分类算法的对比,实验结果表明在大多数数据集中,该算法的分类性能优于传统分类算法。(4)将WM_SamplingHT算法和WL-HNB算法应用于冠心病中医诊疗辅助系统,验证该系统的分类性能,通过与系统中的其他分类算法进行对比,实验结果表明WM_SamplingHT算法成功挖掘出了系统数据库中的频繁项集与关联规则,WL-HNB算法也实现了对频繁项集的分类,从而对冠心病的诊疗起到了一定的辅助功能。
其他文献
家风是一个家庭或者家族长期以来形成的传统风尚,具有社会意识性、历史继承性、复杂多样性和隐形教育性等特征。优秀家风是对大学生进行思想政治教育的前提和基础,是高校系统
随着社会的不断发展,市场上产品不断丰富,消费者的消费观随着市场的多样化发生着潜移默化的改变,消费者不再局限于企业生产的产品样式或种类,融合了自身的生活方式和阅历等对
远近效应反映了传播距离变化下信号间干扰对信号捕获、跟踪和电文解析的影响,是影响地基伪卫星定位系统定位精度和有效范围的关键因素。针对地基伪卫星系统在高精度定位中的
晋察冀边区的妇女运动苏小平,郭敬仁一、晋察冀边区妇女运动开展的历史背景晋察冀边区妇女运动的开展是同抗日救国和自身解放两个方面紧紧连在一起的。抗战开始时,晋察冀边区的
本文采用实证分析法,以某部队住宅项目成本管理为研究对象,探究作业成本法在房地产开发项目成本管理中的应用,以实际案例阐明了作业成本法在房地产开发项目成本管理中的绝对
随着电子技术的发展,美国几乎所有的联邦政府部门都在使用电子邮件处理公务。1994年3月,美国国家文件管理局(NARA)发布了电子邮件管理规范(草案)并广泛征求意见。这一草案立即引起很大反响,来
文章主要介绍了会展服务与020模式的概念,分析了020模式对会展服务的影响,探讨了加强020模式下会展服务工作质量的策略,以期促进我国会展服务水平、质量不断提升和会展行业更
对山东省黄河故道土壤环境中的重金属元素、六六六、滴滴涕等难降解农药和有机质含量进行了研究,并分析了重金属元素的纵向分布、有机质和重金属含量的相关性、不同土地利用
对山东某地连片家禽专业养殖户送检的病死鸡进行流行病学调查;通过实验室病理解剖、细菌分离和药敏试验、鸡胚接种、血凝价测定、特异性检测、分子生物学鉴定等诊断手段,确诊
介绍了某地铁出入口基坑钢筋混凝土内支撑体系进行爆破拆除工程的爆破方案的设计,爆破参数的选取,孔内高段位半秒延期与孔外毫秒延期相结合的逐簇逐区起爆网路的设计、爆破震动