论文部分内容阅读
随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也带来了很多的负面影响,其中垃圾信息已成为人们日益关注的焦点问题。网络垃圾信息的日益泛滥不仅为人们的工作和生活带来困扰,也为社会经济带来巨大损失。如何有效检测和过滤垃圾信息是研究人员面临的一个紧迫问题。
基于文本内容的垃圾信息过滤是目前被人们投入研究最多和应用最广泛的一类方法,其中最有效的是基于机器学习的文本分类方法。本文主要研究了机器学习问题中的基于支持向量机(SVM)的文本分类技术,提出了一些基于以上技术的垃圾信息过滤方法和改进思路。本文的对于以上研究所做的主要内容如下。
(1)概述了信息过滤的发展历史、研究现状和实际意义,以及数据挖掘、文本分类等相关知识,并研究分析了信息过滤问题涉及的相关理论。
(2)论文详细论述了文本分类过程中关于文本预处理、特征选择、文本表示模型和分类处理算法等关键技术。在对这些技术的研究基础上,提出了应用SVM进行在线过滤的两点解决思路。在文本表示方面,提出了信头词汇和正文指纹的提取表示方法;在机器学习模型方面,提出了在线工作集合的概念,以解决SVM重新学习的规模问题。基于以上思路,设计和实现了基于序列最小最优化(Sequential Minimal Optimization,SMO)分解算法的在线邮件过滤器。
(3)通过进一步研究,对以上过滤器提出了三方面的优化改进方法。第一,提出基于风险检测的监督训练模型,使过滤器自身参数能够自适应调整;第二,引入互信息量作为特征提取的准则,去除特征噪声;第三,对在线工作集的组成提出代价敏感方法,使过滤模型能更贴合实际地反映邮件过滤问题中的误分代价规则。
本文最后对基于上述过滤模型和优化方法设计实现的在线式邮件过滤器FSMO进行了实验验证,与原始的SVM文件分类办法相比,过滤时间消耗大大减少,并且能够提高过滤精度;在各标准数据集测试实验中,FSMO邮件环境适应能力良好,且与传统的主流开源过滤器方法相比,FSMO能获得更好的时间性能和更优的过滤效果。