论文部分内容阅读
众所周知,电子邮件是互联网最重要、最普及的应用,大大方便了人们生活、工作和学习。但垃圾邮件问题也日益严峻,经过综合计算,垃圾邮件给中国的GDP每年造成的损失多达60.69亿人民币。由于法律、技术等多方面的原因,目前还无法从根源上制止垃圾邮件的产生,所以研究反垃圾邮件技术势在必行。其中基于内容的反垃圾邮件技术是目前国际上研究的重点。
本文在总结前人所做工作的基础上,针对中文邮件的特性,从整体上对邮件过滤系统进行了深入的研究,并在特征抽取、分类算法等方面提出了一些改进意见。
具体来说,本文做了以下工作:
1.从经济、法律、技术等方面讨论了垃圾邮件产生的原因,总结了目前国内外垃圾邮件过滤技术的现状,并详细介绍了文本分类算法在基于内容邮件过滤技术上的应用。
2.本文通过一系列的实验,分析了特征抽取算法、特征词数量及词性选择等因素对邮件过滤系统的影响。我们发现,优势率算法非常适合邮件文本的特征抽取。同时我们发现了中文邮件文本特征在词性和数量方面的一些规律。
3.考虑到邮件过滤系统中再学习能力的重要性,本文将一种增量式贝叶斯分类模型运用到邮件过滤系统中,并取得了很好的效果。实验证明,它可以大幅提高对未知邮件的分类正确性。另外,本文将广泛应用在中心法的DragPushing修正算法的思想应用到朴素贝叶斯分类器上去,它可以有效地提高朴素贝叶斯分类器的准确率。
4.文章最后,提出了一个理想的垃圾邮件过滤系统的模型。