基于属性离散化的贝叶斯分类算法及其应用研究

来源 :大连海事大学 | 被引量 : 5次 | 上传用户:jn27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
朴素贝叶斯分类算法由于其简单且高效的优点成为数据挖掘十大经典算法之一,但是该算法在进行分类时假定属性间是彼此独立的。不过,在现实应用当中这类假设通常无法成立。在本文中,通过对数据预处理和减弱朴素贝叶斯算法的条件独立性假设来提高算法的分类准确率。主要研究工作如下:离散化技术是经常被用到数据预处理当中的技术。已知的数据离散化方法通常在处理不平衡数据集时表现不是非常理想。本文提出了一种新的离散化算法ICAIM算法,通过结合三个不同离散化标准的优点来改善CAIM算法的性能。ICAIM算法提高了离散区间的质量,使离散化后的数据集的分类性能更好,尤其是不平衡数据集。同时,ICAIM算法的运行时间较CAIM算法有明显提高。隐朴素贝叶斯分类算法忽视了数据集中冗余或者无关属性对分类结果造成的不利影响,本文针对这一缺陷,提出了采用CFS算法对属性实施选取操作,选出一组最优的属性子集合。在减弱朴素贝叶斯算法的条件独立性假设的众多方法之中,属性权重法早已引起了研究者的重视。为进一步减弱条件独立性假设引发的不利影响,本文将根据各属性对分类结果的影响程度,为不同的属性赋予相应的权重。本文提出的权重获取方法不仅考虑了属性与属性间的依赖关系,而且考虑了属性与类属性间的依赖关系,使每个属性获取到的权重更加合理。现有的属性加权方法仅将学习到的属性权重纳入朴素贝叶斯分类公式中,而不将权重纳入其条件概率估计中,本文使用一种被称之为深度属性加权的方法,能够提高朴素贝叶斯模型的质量。最后把本文所提出的ICAIM和SW-HNB算法应用到冠心病中医辅助诊疗系统当中。首先通过ICAIM算法对冠心病临床数据进行离散化处理,然后再用SW-HNB算法对患者的病症分类。实验证明该系统可以有效地起到辅助诊疗的效果。
其他文献
介绍了某地铁出入口基坑钢筋混凝土内支撑体系进行爆破拆除工程的爆破方案的设计,爆破参数的选取,孔内高段位半秒延期与孔外毫秒延期相结合的逐簇逐区起爆网路的设计、爆破震动
在数据挖掘领域,朴素贝叶斯分类算法以其简单和高效的特点得到了广大学者的关注。但是朴素贝叶斯的条件独立假设往往难以得到满足,从而对算法的分类性能带来了或多或少的影响
农产品期货市场对农业发展是否有正面积极效应,仁者见仁智者见智。为此,本文对菜籽油期货价格和湖北省菜籽油现货价格之间的关系进行了单位根检验和协整分析,发现二者之间波
美国作为一个联邦制国家,联邦政府、州政府和地方政府每个财政年度均会独立编制本级财政预算报告,经过本级议会讨论通过后实行。在预算报告中,联邦政府每财年的预算报告中会
目的分析重型地中海贫血的青少年焦虑情绪,并采取相应护理干预措施,提高重型地中海贫血青少年的生活质量。方法选择重型地中海贫血青少年及健康青少年各50例进行汉密尔顿躯体
目的老年口腔修复患者的临床病例分析,研究老年口腔疾病患者的治疗方案,总结经验。方法选取我院2013年4至2014年4月收治的100例老年口腔疾病患者,回顾性分析所有患者的临床资
目的分析经尿道绿激光汽化术与双极等离子电气化术治疗浅表性膀胱肿瘤的临床效果。方法选择在该院接受住院治疗的浅表性膀胱肿瘤患者作为研究对象,随机分为接受双极等离子电
化工项目是我国目前化学工业的主要组成部分,在我国国民经济的发展中占据着重要地位,是我国的支柱型产业,但是可能对环境产生严重的污染影响。本文阐述了化工项目环境评价的原则
建筑工程项目内各个施工环节的相关信息收集都非常重要,而面向各参与方建立的项目信息化集成管理系统,有效实现了项目管理的信息化、组织架构设定等,推动了建筑企业战略。本文就
艺术在漫长时间的发展与进步过程中,经历了无数次的革新,每一次革新都具有无与伦比的艺术价值。现在,艺术终于直面了数字时代,在层出不穷的现代艺术家背后,是时代特征与社会文化的