基于支持向量机的邮件过滤算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:a9249228
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件不仅占据了邮件服务器的大量存储空间,还严重干扰了人们正常的信息交流。如何有效地控制垃圾邮件成为了一个重要的课题,越来越多的学者致力于邮件过滤技术的研究。支持向量机是采用了结构风险最小化的学习方法,具有较好的推广能力,已广泛应用于分类器的设计和数据挖掘等领域。本文主要研究了基于支持向量机的邮件过滤算法。有关核函数的研究是支持向量机的核心问题之一,本文在实现了基于支持向量机的邮件过滤算法的基础上,对支持向量机中的核函数进行了分析,构造了基于邮件集特征的径向基核函数,多项式核函数和组合核函数。实验结果表明构造的核函数是合理的,不仅简化了参数选择问题,而且改善了过滤算法的性能,具有一定的理论价值与实用价值。本文的主要研究工作有以下几点:实现了基于支持向量机的邮件过滤算法,通过大量实验分析了邮件集特征和核函数对该算法的影响。分别采用了不同的邮件样本集进行多次实验,分析邮件集特征对该算法的影响;接着分别针对径向基核函数和多项式核函数进行多次实验,分析这两种核函数对过滤算法的影响。构造了基于邮件集特征的径向基核函数-MRbf和多项式核函数-MPloy。根据前两章的实验结论,结合邮件集特征,分别对径向基核函数和多项式核函数进行改进,得到了基于邮件集特征的径向基核函数MRbf和基于邮件集特征的多项式核函数MPloy。对比实验的结果表明,MRbf和MPloy不仅更容易使用,而且使过滤算法获得了更好的性能。构造了基于径向基核函数和多项式核函数的组合核函数和基于邮件集特征的组合核函数-MRP。从学习能力和推广能力上对径向基核函数和多项式核函数进行了比较,发现二者各有优劣。为了结合两者的优点,根据核函数的凸组合理论,构造了基于径向基核函数和多项式核函数的组合核函数,但是参数太多使得核函数不易控制,因此对其进行改进,得到了基于邮件集特征的组合核函数MRP。实验结果表明MRP使得过滤算法的性能得到了较大的改善。
其他文献
随着互联网规模不断地迅速增长和网络应用类型的日益多样化,网络流量也在不断递增。当网络流量不超过网络带宽容量时,各种业务流的带宽需求就能得到满足;但是当网络流量超过网
光学相干层析技术(OCT)由于具有高分辨率、无损伤、非侵入以及实时成像等特点,已经广泛应用于生物医学领域。先天性心脏病(CHD)是常见的先天畸形之一,通过研究心脏发育过程,可以帮
随着北京申办2008年奥运会的成功,国家越来越重视跳水运动的科学研究。本文针对跳水运动视频的跟踪问题进行研究,具体工作体现在以下几个方面: 改进了三参数的全局运动估计方
随着信息技术的发展和网络化经济的快速进步,制造业信息化、规模化和专业化越来越强,产品开发趋于分散化。在这一背景下,异地协同设计成为提高产品异地开发工作效率的一项重要技
动画自动生成技术(Automatic Generation of Computer Animation)是一个崭新的课题,它由中科院数学所的陆汝钤院士提出,是人工智能技术与电影艺术,图形学技术的结合,是以底层
随着全球经济一体化趋势的加强,加入WTO后跨国公司的迅速增长,国际物流需求将会有非常大的增长,这必将促进第三方物流的迅速发展,特别是能够提供综合物流服务的第三方综合物流企
近年来随着软件开发的日益复杂与软件成本的大幅度提高,测试工作所占的费用和时间比重也日益加剧,其中回归测试用例选择问题尤为突出。回归测试用例选择问题的核心就是如何在
互联网及各行各业信息化的快速发展,企业和单位需要处理的数据量越来越大。传统文件系统已经不能满足海量数据的存储需求,分布式文件系统成为解决海量数据存储的一种有效方式。
随着计算机及网络技术的飞速发展,数字作品传播和拷贝变得越来越方便,同时使得数字作品的信息安全保护和版权保护也成为迫切需要解决的实际问题。数字水印是近年来在信息安全
随着微处理器、无线通信技术和微机电系统的发展,产生了无线传感器网络这一新的信息获取和处理模式。多个传感器节点通过无线通信、自组织方式构成网络,协同工作实时感知、获