改进的NB算法在垃圾邮件过滤中的应用研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:shijun21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着信息技术的快速发展,网络成为了人们的一种社交平台,人们的生活、工作及学习也变得越来越网络化,电子邮件作为常用的网络交流工具,尤其是在工作中受到了广泛的应用。但近年来伴随着网络的发展,垃圾邮件问题也逐渐加重,给用户的工作产生了不必要的麻烦。在《反垃圾邮件状况调查报告》中揭示了垃圾邮件带来的诸多危害,主要体现为信息泄漏,安全性较差;浪费用户时间,影响工作效率;占用网络资源造成资源浪费等问题。针对这些情况,现有的垃圾邮件过滤技术并不能有效快速准确的解决,因此如何提高垃圾邮件过滤性能值得进一步的研究。  现有的垃圾邮件过滤技术存在的问题有计算复杂度较高,误判率较高等问题,不能达到人们所期望的程度。朴素贝叶斯算法凭借其计算简单等优势在垃圾邮件过滤中得到普遍应用。但其条件独立性假设对属性的决策作用产生极大的影响,因此属性加权朴素贝叶斯算法产生,基于属性加权的思想,如何优化权值,更好地发挥属性的决策功能至关重要。目前,群智能优化算法在参数寻优中有很好的效果,故本文将选择群智能优化算法果蝇优化算法(Fruit Fly Optimization Algorithm, FOA)算法对属性权值进行寻优,发挥属性的真正决策性。  除此之外,本文为了更加增强FOA算法的全局寻优能力,提出了一种新的算法——SAFOA,该算法的主要思想是将模拟退火算法(Simulated Annealing, SA)与果蝇优化算法进行融合,通过判断果蝇优化算法获得的味道浓度方差大小,以确定是否陷入局部极值,若认为陷入局部极值则采用模拟退火算法进行寻优,从而跳出局部极值,反之,继续执行果蝇优化算法寻优。通过在测试函数中的测试实验验证,SAFOA算法能获得较好的效果,同时,以SAFOA替代FOA算法应用到垃圾邮件过滤中寻找最优权值。  为了验证算法在垃圾邮件过滤中的应用效果,采用中国教育和科研计算机网紧急响应组(Data Sets of Chinese Emails,CCERT2005-jun)及部分自己的邮件内容作为数据集进行测试。分别应用FOA算法与SAFOA算法对属性权值寻优,实验测试结果与原始朴素贝叶斯算法(Native Bayes, NB)及加权朴素贝叶斯算法对比,得出结论为通过FOA算法或SAFOA算法的优化后的NB算法在垃圾邮件过滤中的准确率和误判率均得到提升,验证了权值优化确实产生了积极作用。另外对比 FOA-NB算法与SAFOA-NB算法,SAFOA-NB的准确率和误判率优于FOA-NB算法,虽然提升程度并不十分明显,但SAFOA-NB算法每次得到的结果较为稳定,间接性的体现权值获取的稳定性。
其他文献
随着电子信息技术的发展,个人的一些隐私信息越来越容易受到侵犯,人们在确保个人信息安全的同时,也在积极寻求新的更加安全的机制,而基于虹膜纹理特征的虹膜识别技术经过多年的发
社会网络是现实中许多真实复杂网络的抽象,社会网络中蕴含着丰富的数据信息。现实世界中,社会网络随处可见,例如Blog、FaceBook和Twitter等在线社交网站。社会网络数据发布可以
语音活动检测是指从一段包含语音的信号中准确地确定语音的起始点和终止点的技术。由于语音活动检测对语音分析、语音合成、语音编码和语音识别等技术具有关键作用,所以本文针
人类社会中各实体间的联系可以通过复杂网络进行描述,如社会接触网络、科学家合作网络、交通运输网和因特网等。复杂网络的研究不仅关注网络自身的结构,同时也非常侧重网络上发生的传播动力学过程。根据不同的研究对象,网络上的传播动力学研究可分为三类:简单生物传播、复杂社会传播和耦合传播。简单生物传播主要指信息、谣言、计算机病毒和流行病等这种单次接触足以导致传播发生的动力学过程,复杂社会传播主要关注健康行为和创
学位
囊状幼虫病是东方蜜蜂种群减少的主导因素,由于缺乏有效的预警手段,目前只能在发病后进行药物控制,导致蜂产品产量、质量的下降。风险评估是识别某一事件存在风险隐患的有效手段
随着科学技术的飞速发展,数据形式愈来愈趋于多样化,例如图片、语音、指纹等等。对于复杂形式数据的挖掘也越来越重要。科技的发展使得人类越来越渴望找到代替人类工作、思考的
软件技术和经济的飞速发展,使得传统的软件提供模式发生了巨大的变化,产生了SaaS型软件服务提供模式,同时面对网络中急剧增长的需求,众多组织和个人希望快速的切入到这一市场,为此
克隆代码的检测和重构是提高软件的可靠性和质量的重要方法。相对于语法相似的克隆代码而言,功能等价的克隆代码和结构语义相似的克隆代码是较为复杂的克隆代码类型,目前对这两
随着信息科学技术的快速发展和高性能计算机的普及,数字图像处理技术越来越先进,数字图像处理工具也越来越强大,编辑和处理数字图像变得极为容易。数字图像可以被轻易地修改,并使
视频目标检测和目标跟踪技术已广泛地使用于各个领域中。本文对基于非参数核密度估计背景建模和基于均值偏移(Mean Shift)的目标跟踪算法展开研究,提出新的方法以提高目标检测