垃圾邮件的特征选择及检测方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:z46810560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的快速发展,目前中国网民数量已达3.38亿,居世界首位。与此同时,日益泛滥的垃圾邮件问题也引起了人们的普遍关注,因为它不仅给人们的工作和生活带来了很大的困扰,也给社会经济带来了巨大的损失。针对垃圾邮件的各种检测与过滤方法应运而生并且得到迅速的发展。然而,越来越常用的、不断更新的垃圾邮件伪装以及攻击手段却正严重影响着这些这类检测方法的有效性和实用性。垃圾邮件经常借助一些替换、插入、编码等手段,在不影响阅读人对信息的理解的同时隐藏自身的垃圾特性,干扰过滤器对其特征的挖掘与提取,从而达到规避过滤器检测的目的,致使一些被认为行之有效的检测方法在实际应用中准确度不高。同时,垃圾邮件属于动态变化的流信息,而现在大多数针对该类信息的特征提取和检测分类方法,都将其视为一般的文本分类,无法体现基于时间流的数据特征随时间变化而发生动态变化的特点。此外,垃圾邮件的检测,是一种大规模的实时数据处理,部分基于机器学习的检测方法由于在模型更新和快速检测上存在性能上的瓶颈,无法很好地投入到实际应用中。总之,不断发展的垃圾邮件形式和检测技术现状都表明,垃圾信息泛滥问题的解决,必须综合运用多种检测技术并加以完善和创新,充分挖掘网络垃圾信息所具备的有效特征,与时俱进。同时还需要做到检测准确率与检测效率的相平衡,使其符合大规模实际应用的要求。基于上述事实,本文系统地分析了垃圾邮件的背景、现状以及研究网络垃圾信息检测技术的现实意义,通过跟踪国内外的网络垃圾信息的先进检测技术,较全面地归纳出现有的网络垃圾信息检测技术的发展现状,比较分析了各种技术的优点以及不足,提出了亟待解决的问题。在已有技术成果的基础上,本文从理论和应用两个层面,对垃圾邮件检测的关键技术进行深入的研究和创新,主要完成了以下几项工作:(1)针对垃圾邮件伪装技术,通过对大规模真实邮件数据的统计和分析,归纳出垃圾邮件报文格式中隐藏的独特行为特征,提出新颖的电子邮件头增强的特征选择方法。在此基础上,将邮件头包含的行为特征和内容特征相结合,并以指纹向量的形式来表示。实验表明,该特征表示方法应用在贝叶斯过滤器中能有效加强过滤器在应对垃圾邮件变种的时的识别能力,提高检测准确率,并且计算简单,适用于大规模应用。(2)提出了将垃圾邮件信息视为动态的数据流进行处理,综合考虑邮件特征的生命周期和使用频率,设计了一种较新颖的使用统计时序的垃圾邮件过滤特征选择方法,在有效减低特征冗余的同时也较好地反映了垃圾邮件特征随时序变化而产生的动态变化;同时提出了一种基于时序预测模型的过滤器阈值动态调优方法,使其与垃圾邮件数量规模保持关联性,能够自适应不同时间段的垃圾邮件强度。基于时序的垃圾邮件特征选择有利于提高垃圾邮件过滤器对最新内容形式的垃圾邮件的识别能力,降低特征存储空间,提高检测速度。(3)针对属性相互独立的限制性假设与垃圾邮件的特征不匹配的事实,引入均-1依赖估计(Aggregating One-dependence Estimators,AODE)来对这一特征属性独立的假设进行弱化,通过垃圾邮件特有的结构化特征,构建新的贝叶斯特征属性网,提出了一种结构化的SAODE(Structural-AODE)算法,并通过基于类条件分布的特征选择优化方法以及基于最大最小熵的主动学习策略,保证了算法的计算时间开销和准确度。实验结果表明该方法能进一步提高贝叶斯方法在垃圾邮件检测上的精度和计算效率。(4)针对当前支持向量机(Support Vector Machine,SVM)方法在垃圾邮件检测应用中面临的算法复杂性和系统开销占用过大两个关键问题,提出了基于序列最小最优化(Sequential Minimal Optimization, SMO)的在线式SVM增量学习方法改进,同时设计了一种基于风险检测的监督训练模型,使分类器自身参数能够自适应调整,并且根据代价规则实现了代价敏感的SVM检测过滤学习机制。这些综合改进方法,使得SVM在保持其分类精确度的同时,提高了其在大规模垃圾邮件检测实际应用中的效率。上述工作所提出的方法在TREC2007、SEWM2008和CEAS2008等标准垃圾邮件数据集上进行了有效验证,并实际参与国内外垃圾邮件过滤测评,与目前的主流垃圾邮件过滤器进行了比较。实验和测评结果表明,本文提出的各种方法的改进和创新,能较有效地解决目前垃圾邮件检测所遇到的信息伪装和实际应用的效率问题。
其他文献
在简述了系统思维产生的原因、状况之后,着重从系统漏斗模型出发,提出数学矩阵思维,从而建立“五位一体”的思维模式,并指出其在理论和具体工作中的重大意义。
研究展示了通过数值计算及试验得出的一艘大型三体船型的设计及其功率特性。该三体船有一个中间主船体及两个侧体或舷外浮体。在三体船概念中,主船体和侧体形成的兴波干扰对三
马晓明是我们班经常需要老师和家长关心的那一类同学。他最大的优点是老师或家长一点即悟,对自己的不足或错误悔恨交加;最大的缺点是5分钟热度,字典对他来说,没有“持之以恒”这
期刊
在CVNX舰船设计备选方案研究分析中,功能扩展的基本型航母设计研究方案5,代表了海军性能最强、效费比最高、达到所有CVNX作战使用需求书目标的设计要求。全面描述舰艇设计,介绍
目的:探讨经颅多普勒(TCD)与彩超联合在锁骨下动脉盗血综合征(SSS)诊断中的应用价值。方法:对TCD检查考虑SSS的52例患者,应用彩超检查颅外段椎动脉和锁骨下动脉。结果:52例患者中,锁
近年来,各类防辐射服大量地涌入市场,无论是在商场还是网上,防辐射服的销量节节攀升,广受热捧,尤其是在都市,防辐射服几乎成了每个准妈妈们的标准配备。不料,2011年12月18日
HMB(β -羟基 - β丁酸甲酯 )是亮氨酸代谢的中间产物 ,能促进蛋白质合成和减少其分解 ,使机体力量增加 ,加快脂肪消耗 ,延缓肌肉疲劳 ,有助于提高耐力 ,是一种增加力量、增
随着科技的迅速发展,大数据技术已经深入人们的生活。大数据技术的不断突破,使它逐渐在智能电网的运用中站稳脚跟。合理地运用大数据技术,不仅能够提高电网的管理效率,也能最
近年来经济增长压力不断增大,售电传统市场面临严峻考验,售电量增长明显放缓。同时随着新一轮电力体制改革的全面试点和实施,给电网企业经营发展带来了较大影响。一方面,社会
介绍三体船,并着重描述其优越性和局限性,主要阐明这些特点对船舶工程设计的影响,为使三体船概念设计成功,必须从设计之初就考虑船舶的建造和三个瘦长船体给机械布置带来的困难。