论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括黑名单与白名单技术、规则过滤以及基于关键词匹配的内容扫描等。
另外一种方法是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有k-近邻、决策树、boosting等。现有的邮件分类器算法其中一个重要步骤是将邮件的文本内容出现的字与词标记化,也就是将邮件文本内容分词。但由于中英文环境中语素的不同特点,英文分词相当简单而中文分词的问题比较复杂。
本文将中文内容邮件分词算法同贝叶斯定理相结合,提出了针对中文内容和基于贝叶斯定理的邮件分类器,并使用这一分类器架构了反垃圾邮件应用系统进行了垃圾邮件过滤的实验,有效的验证了这一针对中文内容和基于贝叶斯定理的反垃圾邮件方法,最后对应用实验的不足进行了总结并提出了进一步的研究方向。