论文部分内容阅读
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,反垃圾邮件问题已成为全球性的具有现实意义的问题。目前的垃圾邮件过滤方法逐渐倾向于采用基于内容的机器学习判别方法,其中基于规则和基于概率统计的方法是其中的典型代表,这些方法实现简单、过滤效果好,但由于对基于内容的垃圾邮件过滤器影响较大的因素主要是邮件的特征表示和分类器的分类速度,这些方法都无法协调过滤速度和精度的关系。支持向量机是近年来得到普遍关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,广泛应用于语音处理、图形检索、文本分类等领域,SVM不但分类速度快、精度高,而且可以有效避免“维数灾难”,是一种公认的高效的机器学习方法。本文研究了基于内容的SVM中文电子邮件过滤方法,主要的工作包括以下几个内容:(1)在大规模真实实验数据的基础上,建立了基于支持向量机的垃圾邮件过滤模型。该模型使用动态的方法构造特征词典,既能有效地不断充实垃圾邮件特征词典,又避免了由于词典过大或过小带来的一系列问题,较好地表示了邮件。(2)使用了向量空间模型对电子邮件进行向量化处理。在向量化过程中,针对中文电子邮件的特点,本文使用正向和逆向最大匹配法相结合的方法对中文电子邮件进行分词,另外,对特征项的选择、特征词权重的表示提出了改进方法。(3)使用fisher线性判别法对支持向量机的邮件过滤模型进行优化,并构造了基于高斯核和多项式核的SVM优化模型。(4)在中国教育和科研网紧急响应组公布的中文电子邮件数据集上对本文提出的过滤模型进行验证,并与贝叶斯、决策树邮件过滤器进行比较,实验结果表明本文的方法在各个方面表现优异,虚警率保持在1%左右,正确过滤率达到98.5%,超过了网易免费邮公布的98%的过滤精度。本文将目前通用有效的SVM方法运用于中文电子邮件的过滤,并结合了中文信息处理技术,使得本文提出的方法取得了良好的效果。本文不仅对电子邮件过滤方法的理论研究具有促进作用,而且所获得的成果具有直接的应用价值。