论文部分内容阅读
随着Internet的用户飞速增长,电子邮件已经成为最快、最经济的通信手段之一。如何有效地防范垃圾邮件,已经成为网络信息安全领域的一个亟待解决难题。垃圾邮件的数量在过去数年里飞速增长,许多使用电子邮件的人不得不耗费更多的时间来处理。这不仅仅浪费时间,而且浪费服务器存储,浪费带宽。
本文研究和总结了当前主流的反垃圾邮件方法,并结合现有的基于内容的反垃圾邮件方法和Web分类、Web过滤的先进技术,针对具有HTML的垃圾邮件的分类方法进行了改进,并基于此算法设计和实现了Spam-Blocker系统。主要工作如下:
以当前技术发展和Spare-Blocker的需求和应用场景研究开始,讨论了反垃圾邮件工作的现状、发展、主要过滤手段等,来指导spam-Blocker系统的设计和开发。
实现了经典的基于文本分类的反垃圾邮件方法,使用TF-IDF进行特征表示,针对文本向量维度高的特点,使用MI、IG等方法进行特征选取,使用SVM进行建模和分类,并与朴素贝叶斯为基准进行了分类效果比较。
对当前主流的Web分类和Web过滤技术进行了研究,并从中选取了适合应用到反垃圾邮件领域的手段和方法,对HTML邮件进行预处理,提出了WTF-IDF的特征表示方法,能够更大程度的保存HTML中的格式、URL、图像等超文本信息,使之能够有助于提高分类结果。通过实验,将利用Web技术进行HTML预处理的邮件分类手段与经典的基于内容的文本分类手段进行了对比,实验结果表明在时间消耗增加在可接受范围之内的情况下,提高了HTML邮件分类的准确率。
将上述结果应用到实践领域之中,实现了基于COM控件技术的Spam-Blocker系统,具有使用方便灵活、分类效果好等特点。并在此基础上,完成了基于用户反馈自定义个性化分类器、统计图表、黑白名单等功能,并与当前流行的邮件客户端Outlook2003相结合,得到了较好的使用效果。