论文部分内容阅读
电子邮件方便、快捷、低成本的特性使得它已经成为Internet上使用最广泛的应用之一,并日益成为人们工作、生活必不可少的通信工具。随之而来的是近年来垃圾邮件的日趋泛滥给电子邮件系统和用户带来了严重的危害甚至损失。垃圾邮件的传播不仅浪费大量网络资源,造成邮件服务器负荷增大,而且也成为有害信息和病毒传播的重要途径。同时,垃圾邮件也会造成用户时间与金钱方面的损失。针对垃圾邮件的问题,研究者提出了许多技术来达到反垃圾邮件的目的。比较常见的反垃圾邮件技术主要有基于关键字匹配的过滤技术、基于黑白名单的过滤技术、基于规则的过滤技术等等。然而,这些技术由于其技术本身的原因,适用范围狭窄,需要大量的人工干预。研究者将智能技术引入了垃圾邮件过滤领域,例如贝叶斯技术。朴素贝叶斯能高效的面对垃圾邮件过滤问题,研究者在此基础上提出了很多改进的算法,并取得较好的效果。但是,一方面这些方法都是面向单个实例,即假设分类器在某时刻只能处理单个实例;另一方面大多数的方法都需要较多的、较为固定的计算资源。而现实中在短时间内往往会有大量的邮件到达服务器需要过滤、投递、转发,需要有针对所有邮件的过滤方法。本文引入Anytime分类模型,Anytime分类模型可以在有限的计算资源的情况下得到相对优秀的返回结果,当有更多的计算资源的时候,能调用SPODE(Super ParentOne-Dependenc Estimators)进一步的精炼分类结果。Anytime分类模型在计算资源与最终结果之间取得了一种动态平衡。本文系统地分析了垃圾邮件的起源、背景以及发展状况,重点强调了垃圾邮件对世界的经济、社会、网络安全的危害。通过分析反垃圾邮件技术的起源、发展与国内外的最新技术进展,全面的归纳了现有反垃圾邮件技术的优点与不足之处。本文在总结和借鉴目前反垃圾邮件领域的相关研究成果的基础上,深入细致的讨论了基于贝叶斯分类的不确定智能机器学习理论,针对现有的智能反垃圾邮件技术的缺陷,提出了相关的一些算法与解决方法,并取得了较好的成果,达到了理论研究与实际应用相结合的目的和效果。主要的研究成果包括:1、在贝叶斯网络的基础上,削弱贝叶斯分类模型关于朴素贝叶斯属性之间条件独立的假设,将实例的属性分为两个部分:强属性和弱属性。强属性之间保留部分属性之间的相关性,而弱属性依然保留朴素贝叶斯的属性之间条件独立的假设。以此构建一个双级贝叶斯分类模型,并将该模型应用于垃圾邮件过滤的应用上。实验证明该分类模型能取得较好的效果。2、现有的基于贝叶斯垃圾邮件过滤技术,由于其计算时间需求的相对固定而不能很好的适用于需要即时响应的在线业务。针对这个不足之处,引入了可以用于在线应用的即时(Anytime)分类模型。基于互信息理论,本文提出AAPMIE(Anytime Averaged Probabilistic under Mutual Information Estimators)分类算法。该算法根据属性所携带的平均互信息的大小对被当作父属性的属性进行排序,依次挑选父属性作为SPODE更新概率估计值。实验证明,该分类算法能取得较好的分类效果,特别是在分类的早期能快速的降低分类的错误率。3、在即时贝叶斯分类模型的基础上,提出一种基于不完全朴素贝叶斯分类模型的新的邮件过滤分类模型。该分类模型放松朴素贝叶斯分类模型分类模型的条件独立假设,选择部分属性作为父属性,并在一定程度上考虑了属性之间的语义关联。实验显示该分类模型对垃圾邮件的过滤更有效。4、在传统的Anytime分类模型基础之上,提出一种基于全局的Anytime分类模型:SAAPE(Scheduling Anytime Averaged Probabilistic Estimators)分类模型。SAAPE分类模型着眼于在有限的计算资源的条件下提高总体的分类准确率。SAAPE分类模型与传统的Anytime分类模型相比更为灵活。SAAPE分类模型可以根据用户的需求随时中断计算,即时将结果返回给用户。而当用户可以等待时,SAAPE分类模型可以利用多余的计算资源得到更精确的分类结果。5、构建了一个基于全局的Anytime垃圾邮件过滤试验系统,AASS(AnytimeAntiSpam System)即时反垃圾邮件系统。该系统应用了即时分类的思想,提供高响应的垃圾邮件过滤机制。