一种混合垃圾邮件过滤技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:deskleg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
垃圾邮件问题日益严峻,电子邮件用户平均每周收到的一半垃圾均为垃圾邮件。反垃圾邮件技术已经成为了研究的热点。而研究基于内容的反垃圾邮件过滤技术更是当前的热点。基于朴素贝叶斯的文本分类技术是目前最有效的邮件正文内容过滤技术之一。但是垃圾邮件的特征是不断变化的,而传统的贝叶斯邮件过滤技术往往不能适应这种变化。因此,朴素贝叶斯邮件正文分类技术必须和其他技术配合起来过滤不断变化的垃圾邮件。基于隐马尔科夫模型的文本消歧技术很好的弥补了朴素贝叶斯的文本分类技术在识别“模糊”词汇上的不足,成为目前垃圾邮件文本过滤领域的研究热点。基于此,本文在分析朴素贝叶斯的文本分类技术的基本原理和基于隐马尔科夫模型的文本消歧技术机理的基础上,将朴素贝叶斯的文本分类技术与基于隐马尔科夫模型的文本消歧技术相结合,设计了一个基于朴素贝叶斯的邮件正文分类技术与基于隐马尔科夫模型的文本消歧技术相结合的垃圾邮件组合过滤算法,将其实现,运用于垃圾邮件过滤系统中。具体的说,本文的工作主要包含下列内容:(1)概述了垃圾邮件的定义、危害,国内外垃圾邮件过滤问题的研究现状和发展趋势。分析了朴素贝叶斯和隐马尔科夫模型的基本原理。(2)设计了一个基于朴素贝叶斯文本分类技术和基于隐马尔科夫模型文本消歧的垃圾邮件组合过滤算法。(3)用C/C++语言编码实现该组合过滤算法,重点是基于隐马尔科夫模型文本消歧算法的编码实现。(4)设计了一个上述算法的垃圾邮件混合过滤系统,并分别在中、英文语料集上做了对比测试及分析,取得了较好的效果。
其他文献
近年来,随着NGN、第3代移动通信(3G)的大力发展,数据业务在骨干网上持续爆炸性增长,尤其是对IP业务的需求激增。IP业务具有突发、多变、不确定、不可预见等特点,采用今天的SDH网
人体或其他生命体通常按照一定的速度、步幅和步频走动或者跑动,因此其谱图呈现出微多普勒特性。人体步态检测与特征提取主要是利用人体行走的动态特性对雷达回波信号进行相
天基雷达(SBR)是一种以卫星为平台,用于远距离目标检测和跟踪的雷达系统。因其具有全天候、探测空域大、预警时间长、抗摧毁能力强、不受领空和地球曲率限制等优点,近年来已
随着传感器技术,低能耗电子和射频技术的发展,低能耗、廉价的无线微传感器逐渐得到大规模应用,相应的无线传感器网络应运而生。无线传感器网络可用于军事、商业、医疗救护、
无线体域网是一种以人体为中心的低功耗无线传感器网络,它在很多领域都有应用,比如军事、医疗、运动和娱乐等。因为对无线体域网节点隐蔽性和便携性的要求,节点有限的电池容量使
学位
以太无源光网络(EPON)结合了以太网技术和无源光网络(PON)技术的优势,能够以较低的价格实现高达1 Gbps的接入速率和长达20 km的接入范围。所以EPON被认为是“第一英里”问题
迈克·杰克逊,一位伟大的啤酒猎人.或许他的名字稍逊于与其同名的流行歌手迈克·杰克逊,但在啤酒世界里,他却是位巨人.2007年8月30日,啤酒猎人迈克·杰克逊因心力衰竭死于伦
无线电波传播特性的优劣对在无线网络规划过程中基站天线高度、基站数量、覆盖能力的评估等有着重要影响,同时关系到基站与移动台之间干扰分析、频率分配的可靠性,最终决定着
TD-SCDMA作为由我国自主提出的第三代移动通信标准,自提出近十来年,在广大科研人员的辛勤钻研和积极创新下飞速发展。但实际的网络建设是一个循序渐进的过程,目前TD网络的覆