针对中文内容和基于贝叶斯定理的反垃圾邮件方法的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:guolingguoling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括黑名单与白名单技术、规则过滤以及基于关键词匹配的内容扫描等。   另外一种方法是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有k-近邻、决策树、boosting等。现有的邮件分类器算法其中一个重要步骤是将邮件的文本内容出现的字与词标记化,也就是将邮件文本内容分词。但由于中英文环境中语素的不同特点,英文分词相当简单而中文分词的问题比较复杂。   本文将中文内容邮件分词算法同贝叶斯定理相结合,提出了针对中文内容和基于贝叶斯定理的邮件分类器,并使用这一分类器架构了反垃圾邮件应用系统进行了垃圾邮件过滤的实验,有效的验证了这一针对中文内容和基于贝叶斯定理的反垃圾邮件方法,最后对应用实验的不足进行了总结并提出了进一步的研究方向。   
其他文献
互联网的发展使得因特网成为当今社会的主要信息交流平台。由于网络用户激增,网络应用层出不穷,接入国际互联网的带宽似乎永远不够用。但是从网络管理的角度来说,网络带宽资源只
随着数字校园现代化建设的不断发展,文件的数量和访问量不断上涨,传统的文件存储系统正逐渐被分布式云存储系统所取代。分布式云存储系统可以有效地解决数字校园环境下大容量
本文介绍了将一个基于数据库的文件系统移植到Linux 操作系统上的设计与实现,该方案在不改变传统文件系统的命令访问接口和应用程序接口基础上,使用兼容POSIX 标准的接口,为
随着多媒体数据(图像、视频和音频)的爆炸式增长,人们急需一种能够方便多媒体数据库管理和访问的技术,基于内容的多媒体检索(CBMR)应运而生。基于内容的图像检索(CBIR)是CBMR的
由于各种数字视频的应用,都对视频图像的质量有不同程度的要求,而在很多情况下,由于拍摄环境与条件的限制,获得的视频图像会产生抖动与信息丢失等现象,给观测者和后期处理带
感知组织包括感知分割及前背景组织,在人类视觉认知过程中起到一个基础且承上启下的作用。其中,感知分割的作用是将从视网膜得到原始图像信号及物体边缘轮廓信息加以处理从而
随着数据中心的应用越来越广,对多数据中心数据共享的要求也越来越迫切。然而,多中心的各存储系统设计架构不同、接口迥异,给统一管理、有效存储、数据检索和更新带来困难;另
在人工智能领域,不确定的动态环境下的重搜索问题的求解空间、时间复杂度都是比较大的,如何改进算法以提高重搜索效率就成为研究者们一直关注的问题。在近两年研究成果基础上,本
无线传感器网络(WSN)已被确定为本世纪最具前瞻性的技术之一,已经被应用在多个方面。随着无线传感器网络的广泛应用,它本身的安全性,可靠性和隐私保护的问题等就更为重要。因为
随着互联网技术、地理信息技术的不断发展,地理信息系统在公众生活中扮演着越来越重要的角色。文本作为自然语言最常用的载体,是一种重要的原始空间数据来源。从自然语言文本