基于SVM的中文电子邮件过滤方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:hiwola
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,而且耗费大量的公共资源,侵害电子邮件用户和企业的合法权益。尽管目前已经存在许多的垃圾邮件过滤方法,但是垃圾邮件不降反升的局面表明,已有的垃圾邮件过滤方法并未取得理想的过滤效果。所以,反垃圾邮件问题已成为全球性的具有现实意义的问题。目前的垃圾邮件过滤方法逐渐倾向于采用基于内容的机器学习判别方法,其中基于规则和基于概率统计的方法是其中的典型代表,这些方法实现简单、过滤效果好,但由于对基于内容的垃圾邮件过滤器影响较大的因素主要是邮件的特征表示和分类器的分类速度,这些方法都无法协调过滤速度和精度的关系。支持向量机是近年来得到普遍关注的一类学习机器,它以统计学习理论(Statistical Learning Theory,SLT)为基础,广泛应用于语音处理、图形检索、文本分类等领域,SVM不但分类速度快、精度高,而且可以有效避免“维数灾难”,是一种公认的高效的机器学习方法。本文研究了基于内容的SVM中文电子邮件过滤方法,主要的工作包括以下几个内容:(1)在大规模真实实验数据的基础上,建立了基于支持向量机的垃圾邮件过滤模型。该模型使用动态的方法构造特征词典,既能有效地不断充实垃圾邮件特征词典,又避免了由于词典过大或过小带来的一系列问题,较好地表示了邮件。(2)使用了向量空间模型对电子邮件进行向量化处理。在向量化过程中,针对中文电子邮件的特点,本文使用正向和逆向最大匹配法相结合的方法对中文电子邮件进行分词,另外,对特征项的选择、特征词权重的表示提出了改进方法。(3)使用fisher线性判别法对支持向量机的邮件过滤模型进行优化,并构造了基于高斯核和多项式核的SVM优化模型。(4)在中国教育和科研网紧急响应组公布的中文电子邮件数据集上对本文提出的过滤模型进行验证,并与贝叶斯、决策树邮件过滤器进行比较,实验结果表明本文的方法在各个方面表现优异,虚警率保持在1%左右,正确过滤率达到98.5%,超过了网易免费邮公布的98%的过滤精度。本文将目前通用有效的SVM方法运用于中文电子邮件的过滤,并结合了中文信息处理技术,使得本文提出的方法取得了良好的效果。本文不仅对电子邮件过滤方法的理论研究具有促进作用,而且所获得的成果具有直接的应用价值。
其他文献
BACnet是楼宇自控领域中唯一的开放性国际标准,不同厂家生产的楼宇控制设备,只要符合BACnet协议,就可以相互通信、协调工作,从而实现互操作。然而时至今日,仍有一些楼宇自控
RSA密码系统是目前应用最为广泛的公开密钥密码系统。RSA密码系统中最核心的运算是模乘幂运算,即计算YEmodN。模乘幂运算由一系列模乘法运算实现,模乘法运算是模乘幂运算的基础
本文主要研究将计算机视觉应用于智能车辆的视觉导航系统的原理和关键算法以及实现过程。主要目的是为智能车辆提供横向控制和纵向控制所需的控制信息。在横向控制方面,主要包
随着短消息业务在GSM移动通信网络上的广泛开展,简单的点对点短消息已经不能满足用户对基于短消息的数据业务需求。迅猛增长的短消息增值业务已成为中国移动和中国联通两家运
本文以“全国大型科学仪器资源数据库及共享网络信息管理系统”项目为背景,从分析子功能模块“统计分析”的实现问题出发,提出了把多节点的统计分析在网格环境下与网格数据库相
细胞数字化理论给基于细胞形状变化速率的树木品质预测提供了理论基础。以往使用的传统树木品质评价方法所需的时间长、工作效率低,无法满足对树木进行快捷、准确的预测要求
随着计算机网络与Internet的广泛应用,信息安全成为网上的突出问题。而数据库作为网上信息的主要载体,如何提高其安全性也受到了格外的重视。安全审计机制是信息安全手段中一个
由于传统存储技术DAS的广泛采用,使得数据分散到各个服务器上,并且服务器大多都工作在不同的操作系统平台上(比如HP/UX、Solaris、Linux等),形成了所谓的“信息孤岛”,有鉴于此存
分类是模式识别与人工智能等领域中的主要研究内容之一。随着分类问题的复杂化,如何提高分类系统的精度和效率已成为当前研究的热点。而粗糙集、神经网络与进化算法等软计算方
在实际生活中,图像已经成为人们日常交往之间的交流表达工具。但是由于设备本身物理特性或者周围照明环境的影响,复制和再现图像的效果可能就与作者的意图不一致。特别是对图像