论文部分内容阅读
随着互联网的普及,电子邮件作为一个主流的通讯手段,日益受到人们的重视,它方便快捷的通讯功能方便了人们的生活。但是,同时也产生了副产品,垃圾邮件。垃圾邮件像瘟疫一样蔓延,污染着网络环境,占用了大量传输、存储和运算资源,影响了网络的正常运行。垃圾邮件给Internet用户、网络管理员和ISP带来了无尽的烦恼,几乎所有的邮件服务器都不同程度的受到侵扰,同时垃圾邮件给全球带来的经济损失是非常巨大的。因此,人们对反垃圾邮件技术的重视程度也越来越高。目前,垃圾邮件过滤技术主要有两种,一种是基于信件源的过滤技术,另一种是基于内容的垃圾邮件过滤技术,信件源过滤技术是针对自己内部的邮件服务器进行保护,同时也间接地保护了Internet资源;而基于内容的过滤技术则是通过对邮件内容的判定来实现的,基于信件源的过滤技术有:实时黑白名单技术、SPF(发送者政策框架)、挑战-响应系统。基于内容的垃圾邮件过滤方法又可以分为基于规则的方法和基于概率统计的方法。目前常用的基于规则的方法有:Ripper、决策树方法(Decision Tree)、Boosting方法等,基于概率统计的方法主要有k-NN方法、SVM(支持向量机)方法、Winnow方法和贝叶斯方法。其中,实时黑白名单技术和贝叶斯方法广泛的应用于垃圾邮件过滤当中。同时,垃圾邮件发送者为了逃避反垃圾邮件系统的过滤,不断的改变策略,这样使得垃圾邮件过滤技术也面临着新的挑战。本文详细的描述了垃圾邮件的特征,并分析了反垃圾邮件的发展阶段;其次,详细介绍了反垃圾邮件中的几种主要的关键技术,并对贝叶斯过滤方法进行了详细的介绍。垃圾邮件中大部分都含有URL链接,而这个链接往往就指向一些不健康的网站,或者某个商品促销的网站。针对这个特征,本文提出了用意图分析法来过滤垃圾邮件。意图分析法是专门针对邮件内容中含有URL链接的邮件进行过滤的,它是内容过滤方法的一个特例,把意图分析法和贝叶斯方法结合起来进行过滤,也就是本文中提出的意图分析法与贝叶斯方法的联合框架。该框架分为两个阶段,意图分析阶段和贝叶斯过滤阶段,对邮件进行过滤之后,本文提出了对URL链接库的更新和维护的方法。并通过反馈学习方法,更新贝叶斯方法的词库。并通过对比试验对意图分析法与贝叶斯方法的联合框架的过滤效果进行了评价,最后对该框架进行了理论分析。