基于支持向量机和稀疏技术的中文垃圾邮件分类研究

被引量 : 0次 | 上传用户:king95
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的日益普及,电子邮件服务的应用也越来越广泛,但是垃圾邮件问题带来许多不便和巨大浪费。如何有效的对垃圾邮件进行过滤,已成为互联网信息安全领域亟需解决的一个难题,对垃圾邮件过滤理论及技术进行研究具有相当重要的现实意义。目前,垃圾邮件过滤技术的主要研究重点是基于邮件内容分析的邮件过滤技术。基于邮件内容的中文垃圾邮件过滤方法主要包括以下几个方面:邮件正文中文文本分词、中文文本表示、文本特征词条选择以及分类技术几个部分。针对垃圾邮件过滤中的邮件数据维度高且稀疏的特点,本文首先对文本特征选择的相关技术:信息增益法、互信息法和开方分布等方法以及正则化技术中Lasso理论方法进行了深入研究,并将带有l1范数的惩罚最小二乘方法,也即最小绝对收缩与选择算子(LeastAbsolute ShrinkageSelection Operator, Lasso)引入到文本特征选择中,利用Lasso方法的系数约减特性,来完成文本特征词条的选择。支持向量机(SVM)方法在文本分类跟垃圾邮件过滤中早已得到了广泛的应用,对于支持向量机的研究,特别是对支持向量机核函数方面的研究,一直是机器学习的研究热点。一般来说,在支持向量机中经常使用到的核函数有:线性核函数、多项式核函数和径向基核函数(高斯核函数)等。Q-高斯函数是一种带有参数Q的一般化的高斯函数,在理论应用中有一些高斯函数所不具有的特性,本文对Q-高斯函数进行了深入的理论分析,将Q-高斯函数引入到SVM,构建Q-高斯SVM分类模型用于垃圾邮件过滤,使用TREC06C和CDSCE中文邮件测评数据进行仿真实验,实验结果表明Q-高斯SVM用于垃圾邮件过滤具有较好的分类性能。在应对真实世界中的误分类代价不同以及正负样本分布不平衡的问题,代价敏感学习方法开始受到越来越多人的重视,在垃圾邮件过滤问题中,正常邮件跟垃圾邮件的误分代价差异很大,而且在实际生活中,垃圾邮件的数量也往往占据绝大多数,此时代价敏感的学习方法就显得尤为重要。本文将Lin等人提出的代价敏感SVM(Cost-SensitiveSVM, CSSVM)算法应用于垃圾邮件过滤,通过使用代价敏感的学习方法来提高邮件过滤算法的准确率跟泛化能力。本文通过对垃圾邮件过滤过程中特征词条选择方法和SVM分类算法进行一些改进,提出Lasso词条选择方法和Q-高斯核SVM算法,并将这两种方法以及代价敏感SVM算法用于垃圾邮件分类,在实际的垃圾邮件数据集上进行实验,实验结果验证了这些方法的有效性。
其他文献
战略性新兴产业的形成和发展有其内在的产业和技术成长规律,需要具备一定的产业和技术基础及较为完善的支撑体系。中国发展战略性新兴产业面临着体制性障碍、产业基础区域差
针对闽南地区花岗岩机制砂配制不同强度等级的非泵送混凝土试块,按照《回弹法检测混凝土抗压强度技术规程》JGJ/T23—2001的标准方法分别测试14,28,60,90,180,360d混凝土试件
本文基于“汽车在线销售系统”项目对网络虚拟展示的交互性设计进行研究,其中重点分析了项目中汽车虚拟展示和改装部分。汽车网络销售是未来汽车营销的一个重要发展方向,也是企
环境风险是现代人类面临的全球性问题之一,得到世界各国的广泛关注。环境风险感知研究则是从社会层面而非技术层面对环境风险问题进行的一种研究方向,其重要性在于它对环境行为
<正> 教学目的1.理解本文结构的特点,学习文章刻画人物的方法。2.了解杨修恃才放旷的性格特点,培养学生谦虚谨慎、戒骄戒躁的优秀品质。教学过程一、布置学生根据"自读提示"
沥青路面易受到交通量迅速增大、车辆大型化、严重超载、行驶渠化以及日照、水分等环境因素的综合作用,逐渐出现裂缝、车辙、松散、剥落以及坑槽等各种早期破坏,从而影响路面的
世界上的每个民族都有属于本民族独特的婚俗,这些婚俗的形成与该民族所处的社会、政治和经济环境、宗教信仰等因素密不可分,能反映出该民族的特征,折射出该民族的风俗风貌。本论
随着我国经济的快速发展,人们对机动车辆的需求与日俱增,国内机动车的生产量及保有量急剧增长,随着机动车的增多,机动车排气污染物已成为国内大城市大气污染的主要来源之一。机动
上市公司盈余管理行为一直是公司治理和学术研究中的热点问题,操纵盈余的手段虽多种多样,但大致可以分为以下三类:会计造假、应计项目盈余管理和真实盈余管理。传统意义上的盈余
语言报警器使用于煤矿井下有瓦斯及煤尘爆炸危险的各轨道偏口,风门、斜井绞车及上下车厂等场合。主要用于警示“行人不行车,行车不行人”,保护矿山生命财产,配接防爆电磁阀可