基于SVM算法的垃圾信息过滤相关技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bairuyu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互连网络的迅速发展,人们获得越来越多的网络信息,但同时也带来了很多的负面影响,其中垃圾信息已成为人们日益关注的焦点问题。网络垃圾信息的日益泛滥不仅为人们的工作和生活带来困扰,也为社会经济带来巨大损失。如何有效检测和过滤垃圾信息是研究人员面临的一个紧迫问题。   基于文本内容的垃圾信息过滤是目前被人们投入研究最多和应用最广泛的一类方法,其中最有效的是基于机器学习的文本分类方法。本文主要研究了机器学习问题中的基于支持向量机(SVM)的文本分类技术,提出了一些基于以上技术的垃圾信息过滤方法和改进思路。本文的对于以上研究所做的主要内容如下。   (1)概述了信息过滤的发展历史、研究现状和实际意义,以及数据挖掘、文本分类等相关知识,并研究分析了信息过滤问题涉及的相关理论。   (2)论文详细论述了文本分类过程中关于文本预处理、特征选择、文本表示模型和分类处理算法等关键技术。在对这些技术的研究基础上,提出了应用SVM进行在线过滤的两点解决思路。在文本表示方面,提出了信头词汇和正文指纹的提取表示方法;在机器学习模型方面,提出了在线工作集合的概念,以解决SVM重新学习的规模问题。基于以上思路,设计和实现了基于序列最小最优化(Sequential Minimal Optimization,SMO)分解算法的在线邮件过滤器。   (3)通过进一步研究,对以上过滤器提出了三方面的优化改进方法。第一,提出基于风险检测的监督训练模型,使过滤器自身参数能够自适应调整;第二,引入互信息量作为特征提取的准则,去除特征噪声;第三,对在线工作集的组成提出代价敏感方法,使过滤模型能更贴合实际地反映邮件过滤问题中的误分代价规则。   本文最后对基于上述过滤模型和优化方法设计实现的在线式邮件过滤器FSMO进行了实验验证,与原始的SVM文件分类办法相比,过滤时间消耗大大减少,并且能够提高过滤精度;在各标准数据集测试实验中,FSMO邮件环境适应能力良好,且与传统的主流开源过滤器方法相比,FSMO能获得更好的时间性能和更优的过滤效果。
其他文献
经过近三十年的发展,地理信息技术逐步步入计算机主流技术。而Web GIS因其无需安装客户端不仅为广大用户带来了更加便利的地理信息服务,同时也推动地理信息技术的进一步发展。W
随着高性能计算的不断发展演变,千万亿次高性能计算机已经成为当前的研究热点。超并行(HPP)体系结构作为面向高性能计算的新型体系结构,结合了MPP的可扩展性,DSM的高效通信和机
网络与多媒体技术的发展,带动了录播技术的发展,并且在精品课程、远程教育、公开课等领域应用广泛。目前可以同时呈现摄像机视频、计算机屏幕图像和索引目录的录播系统主要有
视频、音频等多媒体资源的广泛应用和网络传播是技术和社会进步的标志,但也带来了新的管理保护上的问题。如何进行有效地对视频内容进行管理保护已经成为信息安全关注的重点方
学位
互联网带来了信息的急剧膨胀,促成了诸多新型应用需求,如垃圾邮件过滤,垂直搜索引擎,数字图书馆等,这些系统迫切要求对文本进行自动分类。中文文本的自动分类也一直是该领域中的重
随着各类人工操作逐步被更高效的机械自动化取代,针对自动化设备的故障自动诊断和远程维护便显得尤为重要。远程自诊断系统无需设备使用人员参与,便可对故障进行自动诊断并将
随着电子商务的日益繁荣,电子商务用户的个性化服务需求越来越强烈。用户迫切的需要网站提供专业化、个性化的服务。而电子商务运营商也需要将传统信息服务进行拓展和延伸,以
学位
网络流量监测分析是网络管理、控制与优化的重要手段。数据包分析复杂度提高与带宽的增加为在通用计算平台上实现高速链路流量监测分析提出巨大的挑战,在多核平台上实现多线程
基于Web的三维场景规划系统成为当前三维方向研究的重点、热点。为了提高规划的效率和提升规划的效果,采用虚拟现实技术来重现和创建地理空间环境进而集成信息系统形成一个综
随着计算机技术的发展,网络传输带宽不断提高,存储成本日益下降,越来越多的数码便携设备也进入到人们的日常生活中,这些都促使了数字媒体信息的飞速膨胀。因此,如何处理这些海量的
学位