基于改进SVM模型的中文邮件过滤系统的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:bbsdog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国已经成为第二大垃圾邮件受害国,垃圾邮件的泛滥对网络安全、个人生活以及整个社会带来严重危害,因此研究垃圾邮件问题具有重大意义。 邮件过滤技术是反垃圾邮件的重要手段,目前流行的垃圾邮件过滤技术包括黑白名单技术、基于规则的过滤以及基于内容的过滤技术等。由于垃圾邮件的特征不断变换,黑白名单和规则过滤方法都有一定局限性。基于内容的过滤方法从邮件正文出发,通过对邮件正文的特征分析来判别垃圾邮件。内容过滤方法往往是利用文本分类技术,主要有朴素贝叶斯算法、k 近邻算法、支持向量机算法等。然而k近邻算法当训练集规模较大时其效率难以保证,而朴素贝叶斯算法建立在独立性假设基础之上,因此贝叶斯算法的准确率也受到限制。 本文重点讨论了支持向量机算法的优点,指出支持向量机在邮件过滤方面所存在的不足,即训练阶段不同类别样本交叠所带来的分类面过于复杂的问题,以及分类阶段处于分类面之内的样本分类结果可靠性较低的问题。通过在训练阶段对样本集使用最近邻算法进行裁减,以及在实时分类阶段采用支持向量机和 k 近邻算法相结合的分类方法,使得支持向量机在邮件过滤方面有更好的准确率。实验表明,改进后的模型对垃圾邮件有较高的识别率。 利用改进的支持向量机算法模型,本文设计并实现了一个中文垃圾邮件过滤系统。该系统结合了一种较好的中文分词技术,使用LIBSVM作为支持向量机开发工具,在训练阶段对样本集进行最近邻裁减,降低支持向量机分类面的划分难度;在测试和实时分类阶段,使用支持向量机和k近邻算法相结合的方法进行分类,提高支持向量机的分类准确率。该系统对中文邮件有广泛适用性,并目.有较高的实时性和良好的分类性能。
其他文献
随着网络技术和多媒体技术的飞速发展,网络上的多媒体应用日益丰富。作为其中的代表,流媒体直播系统被广泛应用于视频会议系统、远程教育系统等。流媒体直播系统是典型的组通信
聚类技术是数据挖掘领域具有重要价值的技术之一,随着网络在社会生活的不断深入,加之数据库技术的迅速发展和普及,Web挖掘日益受到信息科学界的关注和重视,总的来说,Web挖掘
移动通信和互联网的迅猛发展导致了异构网络的形成。用户通信需求的不断增加使盛行的Wi-Fi网络逐渐暴露出覆盖范围有限的缺点。WiMAX,无线网络技术的代表之一,能为10km范围内的
随着多媒体技术及Internet网络的迅速发展,图像来源不断扩大,大容量高速存储系统为图像的海量存储提供了基本保障,各行各业对图像的使用越来越广泛,图像信息资源的组织、管理
近年来,虚拟实验室的研究与应用己成为计算机应用领域一个重要的组成部分,并成为新兴的研究热点。而对虚拟实验室中实验设备的三维建模技术的研究是构建虚拟实验室时要解决的
异构数据源集成技术的研究是当前计算机应用领域一个新的研究热点。特别是近些年来,随着Internet技术的发展及网络应用的不断完善,各个行业要求通过一个统一的接口访问各种异构
传统的工作流系统仍然存在着适用范围窄、灵活性差和意外情况处理不及时,以及不能对活动中的任务做出合理的评估、实现过程重构等问题。鉴于上述原因,具有自组织、自学习和协同
随着社会信息化程度不断加深,国产数据库神舟OSCAR在国内不同行业得到了广泛应用,同时用户对数据库管理系统的要求也越来越高。相对于国际上主流的数据库管理系统,神舟OSCAR
在计算机技术飞速发展的今天,嵌入式技术凭借功耗低、成本低、体积小等特点,在工业、农业、军事、医疗、航天等方面得到广泛应用。随着嵌入式技术的不断发展,和对嵌入式技术要求
随着Intemet的迅猛发展,计算机网络正在逐步成为一个国家经济发展的基础和命脉,整个世界对网络的依赖程度也越来越大,随之而来的网络安全问题也变得日益突出,各种安全技术如防火