朴素贝叶斯分类算法的研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:cyqhexxjl86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化时代,数据已经成为一种宝贵的资产。如何高效准确地从这些数据中挖掘出有价值的信息和知识,一直备受学术界和工业界的关注。贝叶斯分类方法是机器学习和数据挖掘研究领域的重要数据处理方法之一。朴素贝叶斯分类方法具有简单、高效、分类效果稳定的优点,同时还具有坚实的理论基础,因此在实际应用中得到广泛的重视。另一方面,朴素贝叶斯为了简化分类模型,而假定分类数据各个属性间是相互独立的,这在实际应用中通常很难完全满足,如此就使得朴素贝叶斯方法在处理复杂问题时受到一定的限制。为此很多研究人员通过放宽属性独立性假设这个条件来提高朴素贝叶斯分类方法的分类性能。近年来,属性加权的方法受到越来越多的重视。随着信息化的高速发展,信息量呈指数级增长,其中蕴含着非常丰富的商业价值,海量数据处理和海量计算是数据挖掘领域的一个常见问题,数据挖掘最初只是用于处理少量的、有着良好结构的数据,而随着数据规模增大,传统数据挖掘算法已很难胜任。云计算技术的出现,为处理大规模数据提供了一种有效地解决方案。而要运用云计算技术解决大规模数据挖掘问题,一个重要问题是如何将传统的数据挖掘算法并行化,并行之有效地部署到云计算平台上去。本论文首先介绍了朴素贝叶斯分类的相关理论,并分析了当前一些学者对朴素贝叶斯分类算法的一些改进方法,然后重点讨论了属性加权对朴素贝叶斯最终分类结果的影响。据此,本文提出了基于差分进化算法的属性加权朴素贝叶斯分类算法,采用差分进化算法优化属性权值,实验证明该算法能够提高分类的准确率。随后本文针对海量数据问题,介绍了Hadoop云计算平台和MapReduce编程模型,并详细分析了朴素贝叶斯分类算法的并行化过程,据此,提出并实现了基于Hadoop平台的并行高斯分布朴素贝叶斯分类算法来处理大规模连续型数据,实验证明该算法不仅能够提高分类准确率,而且能够加快处理速度。
其他文献
对组织消费者做出认定,了解组织消费者决策过程,最后提出了针对组织消费者的关于产品、价格、沟通服务和营销渠道的策略。
目的利用中医传承辅助系统(Traditional Chinese medicine inheritance support system,TCMISS),分析名中医治疗老年肺癌与中青年肺癌用药规律的异同,以期更精准的指导临床用
教与学的矛盾是教学过程中的主要矛盾,它贯穿于教学过程的始终.学生是学习的主体,只有处于主动积极状态,经过认真的观察、实践、思考,才能体会物理现象中蕴含的规律,产生探究
期刊
随着中国经济的发展与经济全球化的趋势日益融合,中国企业在国内市场趋于饱和的情况下,加速海外市场的开拓势必成为企业发展的一种趋势和市场战略。企业要同时面对国内市场对
随着基础教育课程改革的深入实施,新课程理念下的课堂教学有了很大的变化,从教师角色到教学方式、学生学习方式都有不同程度的转变,也取得了一定的成效.但回顾与反思我们的课
期刊
2012年12月7日,中国科学技术信息研究所在京公布了最新中国科技论文统计结果,其中《世界科学技术-中医药现代化》2007年第3期刊载的“基于DNA barcoding(条形码)技术的中药材
本研究通过构建模拟煤矿突发事故场景的实验系统,对受试志愿者进行施加模拟事故前后生理指标的测量,用来分析煤矿事故受困人员生理特征及变化规律,进而研究心理变化发展规律。本
9月6日,在第26个教师节即将到来之际,市委书记刘刚深入西峰山学校和黑河小学,走访慰问了在这里默默耕耘的学校教职工。在送去慰问金的同时,更送去了党委、政府对他们的深情慰问和
嫩江县前进中学是一所农村规范化初级中学,1995年被命名为省级示范初中,并先后被团中央、省教委等部门命名为“中学生社会实践活动合格单位”、“中学生合格团校”、“双全学
本义将PXI总线技术和误码测试技术相结合,研制了基本PXI总线的误码测试卡,给出了具体的硬件电路设计和虚拟面板的实现。