基于内容的垃圾邮件过滤研究

被引量 : 135次 | 上传用户:nnnnnnnxxxxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外一条路线就是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便,但召回率和正确率难以提到一个更高的层次,而且不适合于增量式的反馈学习。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。Winnow是一种错误驱动的在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈,作者将Winnow算法应用于垃圾邮件过滤,在公用的邮件语料上的实验表明,Winnow的效果比简单贝叶斯方法要好,接近于Boosting方法。具体的说,本文的工作主要包含下列内容:1)概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过滤技术。2)介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算法以及通用的邮件语料库。3)详细分析邮件过滤中的简单贝叶斯算法。使用PU1邮件语料实验贝叶斯算法的性能,并比较特征数量、分类阈值以及语料的预处理层次对结果的影响。4)将Winnow线性分类算法引入到邮件过滤中,在PU1语料和Ling-Spam语料上实验Winnow分类器,得到了较好的效果。5)结合简单贝叶斯算法和Winnow分类器,分析垃圾邮件过滤的反馈学习技术。6)设计了一个客户端邮件过滤系统的基本框架。
其他文献
本文首先针对TPP与TPPFR形成的复配成炭型阻燃剂的阻燃机理做了较为详细的阐述。应用傅立叶转换红外、热重和气相色谱/质谱联用详细分析讨论了该复配阻燃剂在不同热解阶段的化
素质教育的基本目标是教会学生学习。面向未来学会学习是当代教育的精髓,终身学习与终身教育已成为人们的现实追求。学生未来的生存质量与发展水平,在很大程度上取决于他们的学
网络团购可以实现团购网站、商家、消费者等的合作共赢,但同时存在着产品绩效、时间、隐私、价格、网站来源、支付等风险,这些风险的成因主要来自于消费者、团购网站、商户、
党和国家始终都对高校思想政治教育工作高度重视,高校辅导员职业认同是高校思想政治教育中重要的一个环节,高校辅导员是大学生思想政治教育的骨干力量,是高校学生日常思想政
本文认为,目前我国农村商品流通中存在着商品流通业态单一、营销方式单一、支付方式单一、流通网络薄弱等问题。开拓农村市场,要进一步提高农村商品档次、增加商品种类;积极
自2006年1月16日,中国证监会批复同意中关村科技园区非上市股份有限公司股份进入代办股份转让系统进行股份报价转让试点,新三板市场便在中国发芽生根,逐步成长起来。但是由于
<正>中国零售业格局仍将处于"外强内弱"的基本态势,但外资零售巨头们无论业绩、利润还是影响力都可能在今后的三五年内持续下滑,中国零售业内外资已经攻守易势。家得宝走了,
源于建构主义学习观和维果斯基最近发展区理论的支架式教学模式,近年来受到语言教学界的广泛关注.文中简要介绍了支架式教学模式的理论基础,讨论了它的五个环节,并结合教学实
本文对中德成语中不同动物的伴随意义在汉德两种语言中的异同进行了比较分析,就其文化内涵的异同,以及汉德互译逐一作些探讨。 本文首先探讨了伴随意义的定义和汉德成语的性
正确界定当前我国公立高校的法律地位及其与学生的法律关系,对于提高师生的法治意识,加强教育法制建设,建设和谐的校生关系,推动依法治校具有十分重要的意义。笔者认为,我国公立高