论文部分内容阅读
随着互联网的日益普及,电子邮件逐步成为人们日常生活中通信、交流的重要手段。邮件系统的信息推广效益及其自身的开放性使得一些组织和个人通过这一平台发送大量垃圾信息来获取不当利益。 面对日益泛滥的垃圾邮件,首先,人们采用了黑名单和白名单技术;其次,采用简单的规则过滤和关键词匹配过滤;然而这两类技术都存在很高的误判率,垃圾邮件发送者通过简单处理可轻易地避开这类过滤。最后人们将常用的文本分类和信息过滤的算法如朴素贝叶斯、Winnow、Perceptron、决策树、支持向量机、k-近邻等引入邮件过滤中,以实现更为智能的过滤器。朴素贝叶斯算法简便,但召回率和正确率难以提高一个更高的层次,而且在一段时间后邮件内容变化较大时,其过滤效果会逐渐下降。Winnow和Perceptron算法是一种错误驱动的在线学习线性分类算法,通过误判学习逐步提高文本分类效果,然而这种算法初始时的过滤效果很差。其它几种方法的计算较为复杂,实时性也较差。 本文通过对贝叶斯算法和Winnow/Perceptron算法进行改进,将这两类算法结合使用,使得在垃圾邮件过滤时既克服了贝叶斯算法适应性差的缺陷,也克服了Winnow/Perceptron算法初始过滤效果差的不足。相应的测试结果也表明,该过滤方法的各项评价指标普遍比这两类算法在单独使用时效果更好。 具体来说,本文的工作主要包含以下内容: 1、概述邮件系统原理以及垃圾邮件过滤的研究现状。 2、总结各类特征选择方法,介绍文本分类算法在垃圾邮件过滤上的应用。 3、通过对贝叶斯和Winnow/Perceptron这两类算法的特性分析,讨论将这两类算法结合构造新过滤方法的理论可行性。 4、通过对现有中文分词方法介绍,讨论新的过滤方法中中文分词的必要性。 5、实现了一个邮件过滤系统,首先对贝叶斯、Winnow、Perceptron三个算法进行了单独测试,然后对前面提出的结合过滤方法进行了测试。 6、按照文本分类和信息检索领域的评价标准对上述测试的各项结果进行了比较和分析。分析表明,本文提出的新过滤方法具有更好的过滤效果。