论文部分内容阅读
现时代不断发展的互联网使电子邮件用户的数量也跟随不断地增加,电子邮件成了人们工作,生活必不可少的交流工具。但是,垃圾邮件也随之不断蔓延,这给电子邮件服务提供商和用户带来了很大的危害以及损失。为了解决垃圾邮件问题,反垃圾邮件技术也在不断地发展和改进,基于机器学习的垃圾邮件技术已经成为目前反垃圾邮件的主流技术。基于机器学习的方法可以适用于不同语言的垃圾邮件过滤中,在以往的研究中比较多的分析研究了在英文中的垃圾邮件过滤,而在中文数据集上的研究分析较少,为了研究出更适合中文垃圾邮件的过滤模型和技术,本文主要对中文垃圾邮件过滤做了相关研究和分析。首先,本文从中文垃圾邮件入手,分析了中文垃圾邮件的一些特点,过滤技术和基于机器学习过滤模型的一些算法,为下文中的展开研究做了理论基础。研究分析了多种特征提取方法,本文采用4元文法提取方法,分析了它的优点,并给出了具体提取过程。并通过分析,本文采用在线的过滤模式,提高了过滤器的适应能力。其次,研究分析了以朴素贝叶斯模型为代表的生成模型和以逻辑回归模型、在线松弛支持向量机模型为代表的判别模型的过滤算法原理,并在此基础上,改进一些方法,选择调试一些参数,来达到在中文数据集上过滤最优的模型。而后,比较了三种模型在四个中文数据集上的过滤性能。对实验结果分析得出了判别模型的过滤性能较好,而且在线松弛支持向量机模型效果更好,在SEWM数据集上达到了最优。最后,在上一部分证明了中文数据集上判别模型的效果较好,为了进一步提高过滤器的性能,在较好的判别模型上引入了两种主动学习算法:b-Sampling采样法和TONE采样法,实现算法并调整最佳参数,使用相同的四中中文数据集分别应用于逻辑回归模型和在线松弛支持向量机模型,两种方法以及不采用主动学习方法进行了对比实验分析。在实验结果看来,引入主动学习方法效果较好,并且TONE的主动学习方法效果比b-Sampling方法更好。为了观察性能较好的TONE方法的时间代价,由于时间关系,只拿SEWM11数据集在在线松弛支持向量机模型上测试了过滤时间,发现比不使用主动学习方法时的时间降低了近十倍。