论文部分内容阅读
我国已经成为第二大垃圾邮件受害国,垃圾邮件的泛滥对网络安全、个人生活以及整个社会带来严重危害,因此研究垃圾邮件问题具有重大意义。
邮件过滤技术是反垃圾邮件的重要手段,目前流行的垃圾邮件过滤技术包括黑白名单技术、基于规则的过滤以及基于内容的过滤技术等。由于垃圾邮件的特征不断变换,黑白名单和规则过滤方法都有一定局限性。基于内容的过滤方法从邮件正文出发,通过对邮件正文的特征分析来判别垃圾邮件。内容过滤方法往往是利用文本分类技术,主要有朴素贝叶斯算法、k 近邻算法、支持向量机算法等。然而k近邻算法当训练集规模较大时其效率难以保证,而朴素贝叶斯算法建立在独立性假设基础之上,因此贝叶斯算法的准确率也受到限制。
本文重点讨论了支持向量机算法的优点,指出支持向量机在邮件过滤方面所存在的不足,即训练阶段不同类别样本交叠所带来的分类面过于复杂的问题,以及分类阶段处于分类面之内的样本分类结果可靠性较低的问题。通过在训练阶段对样本集使用最近邻算法进行裁减,以及在实时分类阶段采用支持向量机和 k 近邻算法相结合的分类方法,使得支持向量机在邮件过滤方面有更好的准确率。实验表明,改进后的模型对垃圾邮件有较高的识别率。
利用改进的支持向量机算法模型,本文设计并实现了一个中文垃圾邮件过滤系统。该系统结合了一种较好的中文分词技术,使用LIBSVM作为支持向量机开发工具,在训练阶段对样本集进行最近邻裁减,降低支持向量机分类面的划分难度;在测试和实时分类阶段,使用支持向量机和k近邻算法相结合的方法进行分类,提高支持向量机的分类准确率。该系统对中文邮件有广泛适用性,并目.有较高的实时性和良好的分类性能。