论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外一条路线就是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便,但召回率和正确率难以提到一个更高的层次,而且不适合于增量式的反馈学习。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。Winnow是一种错误驱动的在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈,作者将Winnow算法应用于垃圾邮件过滤,在公用的邮件语料上的实验表明,Winnow的效果比简单贝叶斯方法要好,接近于Boosting方法。具体的说,本文的工作主要包含下列内容:1)概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过滤技术。2)介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算法以及通用的邮件语料库。3)详细分析邮件过滤中的简单贝叶斯算法。使用PU1邮件语料实验贝叶斯算法的性能,并比较特征数量、分类阈值以及语料的预处理层次对结果的影响。4)将Winnow线性分类算法引入到邮件过滤中,在PU1语料和Ling-Spam语料上实验Winnow分类器,得到了较好的效果。5)结合简单贝叶斯算法和Winnow分类器,分析垃圾邮件过滤的反馈学习技术。6)设计了一个客户端邮件过滤系统的基本框架。