基于即时分类的垃圾邮件过滤关键技术的研究

来源 :电子科技大学 | 被引量 : 9次 | 上传用户:raun395924241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件方便、快捷、低成本的特性使得它已经成为Internet上使用最广泛的应用之一,并日益成为人们工作、生活必不可少的通信工具。随之而来的是近年来垃圾邮件的日趋泛滥给电子邮件系统和用户带来了严重的危害甚至损失。垃圾邮件的传播不仅浪费大量网络资源,造成邮件服务器负荷增大,而且也成为有害信息和病毒传播的重要途径。同时,垃圾邮件也会造成用户时间与金钱方面的损失。针对垃圾邮件的问题,研究者提出了许多技术来达到反垃圾邮件的目的。比较常见的反垃圾邮件技术主要有基于关键字匹配的过滤技术、基于黑白名单的过滤技术、基于规则的过滤技术等等。然而,这些技术由于其技术本身的原因,适用范围狭窄,需要大量的人工干预。研究者将智能技术引入了垃圾邮件过滤领域,例如贝叶斯技术。朴素贝叶斯能高效的面对垃圾邮件过滤问题,研究者在此基础上提出了很多改进的算法,并取得较好的效果。但是,一方面这些方法都是面向单个实例,即假设分类器在某时刻只能处理单个实例;另一方面大多数的方法都需要较多的、较为固定的计算资源。而现实中在短时间内往往会有大量的邮件到达服务器需要过滤、投递、转发,需要有针对所有邮件的过滤方法。本文引入Anytime分类模型,Anytime分类模型可以在有限的计算资源的情况下得到相对优秀的返回结果,当有更多的计算资源的时候,能调用SPODE(Super ParentOne-Dependenc Estimators)进一步的精炼分类结果。Anytime分类模型在计算资源与最终结果之间取得了一种动态平衡。本文系统地分析了垃圾邮件的起源、背景以及发展状况,重点强调了垃圾邮件对世界的经济、社会、网络安全的危害。通过分析反垃圾邮件技术的起源、发展与国内外的最新技术进展,全面的归纳了现有反垃圾邮件技术的优点与不足之处。本文在总结和借鉴目前反垃圾邮件领域的相关研究成果的基础上,深入细致的讨论了基于贝叶斯分类的不确定智能机器学习理论,针对现有的智能反垃圾邮件技术的缺陷,提出了相关的一些算法与解决方法,并取得了较好的成果,达到了理论研究与实际应用相结合的目的和效果。主要的研究成果包括:1、在贝叶斯网络的基础上,削弱贝叶斯分类模型关于朴素贝叶斯属性之间条件独立的假设,将实例的属性分为两个部分:强属性和弱属性。强属性之间保留部分属性之间的相关性,而弱属性依然保留朴素贝叶斯的属性之间条件独立的假设。以此构建一个双级贝叶斯分类模型,并将该模型应用于垃圾邮件过滤的应用上。实验证明该分类模型能取得较好的效果。2、现有的基于贝叶斯垃圾邮件过滤技术,由于其计算时间需求的相对固定而不能很好的适用于需要即时响应的在线业务。针对这个不足之处,引入了可以用于在线应用的即时(Anytime)分类模型。基于互信息理论,本文提出AAPMIE(Anytime Averaged Probabilistic under Mutual Information Estimators)分类算法。该算法根据属性所携带的平均互信息的大小对被当作父属性的属性进行排序,依次挑选父属性作为SPODE更新概率估计值。实验证明,该分类算法能取得较好的分类效果,特别是在分类的早期能快速的降低分类的错误率。3、在即时贝叶斯分类模型的基础上,提出一种基于不完全朴素贝叶斯分类模型的新的邮件过滤分类模型。该分类模型放松朴素贝叶斯分类模型分类模型的条件独立假设,选择部分属性作为父属性,并在一定程度上考虑了属性之间的语义关联。实验显示该分类模型对垃圾邮件的过滤更有效。4、在传统的Anytime分类模型基础之上,提出一种基于全局的Anytime分类模型:SAAPE(Scheduling Anytime Averaged Probabilistic Estimators)分类模型。SAAPE分类模型着眼于在有限的计算资源的条件下提高总体的分类准确率。SAAPE分类模型与传统的Anytime分类模型相比更为灵活。SAAPE分类模型可以根据用户的需求随时中断计算,即时将结果返回给用户。而当用户可以等待时,SAAPE分类模型可以利用多余的计算资源得到更精确的分类结果。5、构建了一个基于全局的Anytime垃圾邮件过滤试验系统,AASS(AnytimeAntiSpam System)即时反垃圾邮件系统。该系统应用了即时分类的思想,提供高响应的垃圾邮件过滤机制。
其他文献
目的探讨脑脊液(CSF)中胆碱酯酶(CHE)的检测对老年脑出血的诊断意义及护理的作用。方法采用DimensionAR全自动生化分析仪对45例老年脑出血患者及30例对照组患者脑脊液CHE活性进行
国防教育是国防建设的重要组成部分,高校是国防教育的重要阵地,同时也是为国家输送高素质国防后备力量人才的基地,在建设强大国防、实现富国强军中有相应重要的作用和地位。
网络流量监控的核心问题是对网络流量的精确预测,预测让"被动应对"转变为"主动选择"应对策略,预测问题是目前人工智能较为成熟的一个应用方向。互联网尤其是4G时代的移动互联
2018年的雅加达亚运会上,电子竞技首次作为表演项目登上亚运会舞台,一定程度上反映出游戏作为媒介已经获得了社会的认同。事实上,游戏已经深深地影响了人们的生活方式、生产
科学技术是第一生产力,科学研究则是推动医院乃至多个行业学科建设和发展的动力。科技创新对于提高医院综合竞争力及医疗技术水平起着关键作用。科研管理部门的工作人员作为执
颅内动脉瘤临床上多以蛛网膜下隙出血为首要表现,其发病迅速,病情凶险,预后较差,因此早期诊断及时手术和术后处理十分重要。冻伤是一种由寒冷所致的末梢部局限性炎性反应性皮
9月3日晚,格力集团在官方微信公众号上宣布与小米集团、中信银行达成战略合作。三家企业正式签署了战略合作协议,约定在产业基金、金融服务、产业投资、项目合作、资源共享等
随着互联网应用的深入,人们对网络的依赖越来越大,网络已经彻底改变了人们的生活方式。Internet逐渐成为人们日常生活中不可缺少的工具。但是随着互联网应用的深入,一旦网络
本文论述了现代教育技术全面推进高等中医药教育科学发展的发展趋势,以教育改革和发展规划纲要为指导,立足新起点,实现现代教育技术新跨越,逐步提高教学质量,充分发挥教学改
近年来,微课发展迅猛,掀起了一阵微课热、翻转课堂热。部分微课在数量方面剧增、质量方面不足、评价方面存在短板、制作方面成本过高。这些问题会影响到微课的持续发展,在供