Hadoop平台垃圾邮件过滤算法研究与实现

来源 :沈阳理工大学 | 被引量 : 0次 | 上传用户:dsq90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段之一,与其相伴而来的垃圾邮件也在日益增长,影响着人们的生活。传统的垃圾邮件过滤技术,如“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤,然而,面对邮件用户群体的膨胀,邮件数量急剧增长,邮件种类也日益庞杂,传统的邮件过滤技术已经捉襟见肘、后继乏力。云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的并行计算能力实现对海量数据的处理,很好的解决了在海量数据处理时存在的计算与存储瓶颈。本文利用云数据挖掘技术对垃圾邮件进行过滤。本文选取贝叶斯邮件过滤算法作为研究对象,在深入研究了Hadoop平台在海量数据处理方面的核心技术之后,针对传统分布式贝叶斯算法实现中存在效率低、误判率高、前期训练消耗资源大等缺点,对贝叶斯邮件过滤算法进行了优化,决策规则是根据待过滤邮件被判定的结果集,由决策表产生规则,然后根据相应的规则与贝叶斯算法结合对邮件进行过滤,使邮件误判率大大降低。再根据一种基于Hadoop开源云架构的MapReduce模型,在处理大量邮件时对其进行并行化处理,这样在提高邮件过滤准确率的前提下提高垃圾邮件过滤的效率。实验结果表明,贝叶斯邮件过滤的MapReduce模型,在召回率、查准率和判对率等指标方面都有良好的表现,同时也提高了过滤的执行效率。
其他文献
对蛋白质二级结构进行预测,有助于理解蛋白质的三级结构,进而理解蛋白质的生物功能和蛋白质分子之间的相互作用关系。围绕蛋白质二级结构预测问题,涌现出了大量的计算生物学
回顾5.12汶川大地震医院志愿者在地震伤员救治中的作用及医院对志愿者的组织、管理,探讨大型灾害应急中医院志愿者的队伍建设及制度建设。
目的探讨舒适护理模式应用于口腔科患者的临床效果。方法选取208例门诊行口腔疾病治疗的患者,按就诊先后顺序随机分为观察组和对照组,每组104例;对照组采用常规护理,观察组在常规
极低出生体重儿(VLBW)的体格生长情况日益受到重视,有研究表明极低出生体重儿在系统保健监测下,生后2~3年内可表现出良好的追赶生长趋势,体格生长各项指标均达到正常范围,也有资料表
传统工艺作为我国优秀传统文化的重要内容,与人民群众生产生活密切相关,具有带动贫困地区群众就近就业、居家就业的独特优势,是助力精准扶贫的重要抓手。桂西地区是我国“十三五”扶贫攻坚主战场和传统工艺资源聚集区,该区域包括百色、河池、崇左所辖的30个县,其中国家级贫困县占全区总数的63.0%,该区域精准扶贫成效很大程度上关系到广西乃至国家脱贫攻坚的进展。近年来,我国高度重视传统工艺振兴助力精准扶贫工作的实
固有无序蛋白自身结构的松散性使得它可以与多种生物大分子结合,在细胞功能调节与信号传导中占据重要的角色,与许多人类重大疾病存在着密切关系,成为当前研究热点。然而由于