基于内容的垃圾邮件检测方法研究

被引量 : 0次 | 上传用户:xiaobaiban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和普及,电子邮件已经成为人们一个相互交流、获取资讯的重要渠道。伴随着信息技术的发展垃圾邮件也给人们带来了诸多的危害。在解决垃圾邮件问题众多的途径和思路中,基于内容的垃圾邮件检测是目前最主流的反垃圾邮件方法之一。文本分类与特征降维分别是基于内容的垃圾邮件检测不可或缺的两个部分。文本分类是在已知类别标号的训练集上通过寻找规律或统计学习建立垃圾邮件检测分类模型的方法。基于内容的分类算法不需要考虑语义环境,只需对文本进行相关统计计算,具有自学习,自适应能力和较高的准确率。特征降维是基于内容的垃圾邮件检测中的另一项关键流程。使用向量空间模型来表示邮件文本时,特征向量空间通常呈现高维特性,不利于垃圾邮件检测系统的运行。对原始高维特征空间进行降维处理就成了垃圾邮件检测中的重要步骤。特征降维方法中的特征选择算法具有性能较好,可行性强等优点,是基于内容的垃圾邮件检测中的重要研究对象。本文对不同垃圾邮件检测组合进行了研究,通过它们性能的优劣对比,在此基础上提出一种基于邮件内容特征的结合正交质心特征选择算法(Orthogonal Centroid Feature Selection, OCFS)和支持向量机(Support Vector Machine, SVM)的新型垃圾邮件检测架构OCFSVM,该组合从垃圾邮件内容特征入手,通过OCFS算法成功地从原始高维特征空间中选出足够类别代表能力的特征子集,通过SVM学习方法对降维后的垃圾邮件语料库低维向量空间模型分类运算,并将其作垃圾邮件检测的基础架构。本文的主要工作和创新点如下:(1)通过对垃圾邮件特征降维阶段及分类阶段的分析,在特征降维阶段引入应用较少的OCFS算法,结合文本分类领域的SVM算法,提出了一种结合OCFS和SVM的新型垃圾邮件检测架构OCFSVM。并在matlab、C#、Eclipse平台和怀卡托智能分析环境(Waikato Environment for Knowledge Analysis, Weka)上,实现了垃圾邮件检测架构OCFSVM.(2)在垃圾邮件检测实验平台上,引入PU系列英文语料库、ZH1中文语料库、中英文混杂自选垃圾邮件集,三种特征降维方法,三种文本分类算法,进行了综合有效的OCFSVM检测架构性能的对比实验。(3)以精准度和F值为评价指标,在对实验结果进行分析的基础上总结出各检测组合的规律,验证了新型垃圾邮件检测架构OCFSVM能够在不同的邮件环境下对垃圾邮件实施有效的检测,且较传统的检测架构性能得到了较大的提高。
其他文献
悬浮液的悬浮性和颗粒带电性是决定氧化铝电泳沉积的关键因素。本文研究了正丁胺的添加对不同溶剂和表面活性剂体系下氧化铝悬浮液的悬浮性能和电泳沉积的影响。结果表明,正
从新中国成立70年来党的军事思想的历史回顾中可以得到一些提示:把握全局,知己知彼,是正确军事思想的产生前提;经济建设是国防建设的基本依托,富国才能强兵,强军才能卫国;科
目的:比较SMAS层多部位悬吊加皮内减张缝合与SMAS颞部悬吊无减张直接拉拢缝合全面部除皱术的效果。方法:将207例除皱患者分为两组,A组121例,采用SMAS层多部位悬吊加皮内减张
<正> 我国以园林之母著称于世,不仅果树种质资源丰富,是世界最大的果树发源中心,而且果树栽培历史悠久,大约在一千四百多年前,果树栽培的各种技术和理论就已达到很高水平。据
权力腐败日益成为社会改革的大敌,威胁着国家的政治稳定,阻碍着经济的健康发展,它害党、害国、害民、害家、害己。分析考察权力腐败现象存在的原因,使人们对"权力腐败论"有一
国际商务谈判是在跨文化语境下进行的商务洽谈活动,它涉及不同语言文化的碰撞与交融问题。非语言行为作为整个交际活动中不可缺少的组成部分,体现出广泛的文化特征。本文将探
当代大学生道德状况总体上是好的,是令人乐观的,譬如他们大多积极乐观、拼搏向上,具有社会责任感,但也存在不少问题。这些问题既表现在道德意识方面,也表现在道德活动方面。就道德
<正> 6.烹调具稻作和旱作的发展农耕,不仅明显地由上述耕作具和收获具,加工具的农具所反映,进而给饮食生活带来变化,亦给谷物烹调方法和烹调具带来变化。这里以烹调具中饮煮
企业办公室作为企业综合管理部门,担负着"参与政务,管理事务"的基本任务,并起着"上情下达,下情上报"的作用。办公室工作效率的高低,质量的好坏,直接影响着上级方针、政策和单