论文部分内容阅读
随着互联网的日益普及,电子邮件服务的应用也越来越广泛,但是垃圾邮件问题带来许多不便和巨大浪费。如何有效的对垃圾邮件进行过滤,已成为互联网信息安全领域亟需解决的一个难题,对垃圾邮件过滤理论及技术进行研究具有相当重要的现实意义。目前,垃圾邮件过滤技术的主要研究重点是基于邮件内容分析的邮件过滤技术。基于邮件内容的中文垃圾邮件过滤方法主要包括以下几个方面:邮件正文中文文本分词、中文文本表示、文本特征词条选择以及分类技术几个部分。针对垃圾邮件过滤中的邮件数据维度高且稀疏的特点,本文首先对文本特征选择的相关技术:信息增益法、互信息法和开方分布等方法以及正则化技术中Lasso理论方法进行了深入研究,并将带有l1范数的惩罚最小二乘方法,也即最小绝对收缩与选择算子(LeastAbsolute ShrinkageSelection Operator, Lasso)引入到文本特征选择中,利用Lasso方法的系数约减特性,来完成文本特征词条的选择。支持向量机(SVM)方法在文本分类跟垃圾邮件过滤中早已得到了广泛的应用,对于支持向量机的研究,特别是对支持向量机核函数方面的研究,一直是机器学习的研究热点。一般来说,在支持向量机中经常使用到的核函数有:线性核函数、多项式核函数和径向基核函数(高斯核函数)等。Q-高斯函数是一种带有参数Q的一般化的高斯函数,在理论应用中有一些高斯函数所不具有的特性,本文对Q-高斯函数进行了深入的理论分析,将Q-高斯函数引入到SVM,构建Q-高斯SVM分类模型用于垃圾邮件过滤,使用TREC06C和CDSCE中文邮件测评数据进行仿真实验,实验结果表明Q-高斯SVM用于垃圾邮件过滤具有较好的分类性能。在应对真实世界中的误分类代价不同以及正负样本分布不平衡的问题,代价敏感学习方法开始受到越来越多人的重视,在垃圾邮件过滤问题中,正常邮件跟垃圾邮件的误分代价差异很大,而且在实际生活中,垃圾邮件的数量也往往占据绝大多数,此时代价敏感的学习方法就显得尤为重要。本文将Lin等人提出的代价敏感SVM(Cost-SensitiveSVM, CSSVM)算法应用于垃圾邮件过滤,通过使用代价敏感的学习方法来提高邮件过滤算法的准确率跟泛化能力。本文通过对垃圾邮件过滤过程中特征词条选择方法和SVM分类算法进行一些改进,提出Lasso词条选择方法和Q-高斯核SVM算法,并将这两种方法以及代价敏感SVM算法用于垃圾邮件分类,在实际的垃圾邮件数据集上进行实验,实验结果验证了这些方法的有效性。