基于贝叶斯算法的垃圾邮件过滤系统的分析与实现

被引量 : 9次 | 上传用户:lucieming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,电子邮件在给用户带来很大的方便的同时,也产生了一个新的问题,即出现了大量的垃圾邮件,而这些垃圾邮件造成了极大的经济损失。如何过滤掉电子邮件中的垃圾邮件,已经成为电子邮件服务提供商和广大的电子邮件用户共同关心的问题,这就是所谓的“反垃圾邮件”问题。垃圾邮件过滤类似于文本分类,但又不能简单的等同于文本分类,把合法的邮件判断为垃圾邮件的危害性要远大于把垃圾邮件判断为合法邮件。本文主要使用贝叶斯算法来过滤垃圾邮件,实现了基于贝叶斯算法的垃圾邮件过滤系统spamfilter。本文首先介绍了电子邮件系统的工作原理、常用的邮件传输协议和邮件的内容格式。分析和实现了基于贝叶斯算法的垃圾邮件过滤系统,该系统能够支持MIME格式的邮件正文,使用大量的已分类为垃圾邮件和合法邮件的样本集作为训练集,获得各类邮件的特征模式,再以该特征模式作为基础进行机器学习,实现对邮件的过滤,从而将邮件分为“垃圾”和“合法”两类。该系统能够作为procmail的一个插件使用,主要是在邮件系统的客户端来处理新收到的邮件。在本系统的开发中,本的主要工作有:(1)熟悉了电子邮件内容的格式——RFC822定义的格式和支持二进制数据的MIME格式。(2)熟悉了垃圾邮件的过滤技术的现状。(3)熟悉了应用贝叶斯算法过滤垃圾邮件的基本原理。(4)设计实现了系统的邮件采集模块,命令解析模块,邮件处理模块,分类模块的部分和训练模块的部分。最后通过实验,证明了该系统具有不错的过滤能力。
其他文献
<正>我国是世界上最大的农业生产国。自我国加入WTO,农产品也参与到了全球化的竞争当中,为我国农业发展提供了更多的机遇,但同时存在绿色标准限制的问题。特别是近年来,农产
类金刚石(diamond-like carbon, DLC)膜具有许多优良的性能,可应用于风沙、盐雾等恶劣的环境中,但其激光损伤阈值(laser-induced damage threshold, LIDT)却非常低,这一特性
采用臭氧水处理、乙腈萃取和气相色谱法(G C )分析,对采后马水桔果实中的有机磷农药降解效果进行研究,探讨臭氧水质量浓度、处理时间及处理温度等因素对臭氧降解有机磷农药效果的
客户的期望是客户满意度的决定因素之一,千方百计满足客户期望是目前电信运营商获取客户满意度的主要思路。但是单纯追求客户期望的满足会使运营商陷入客户期望不断提升、运
异构多核是当今多核处理器设计的主流趋势。其核心思想是处理器中只有一个(或几个)通用的核心完成任务调度功能,主要的计算任务(如浮点运算、信号处理、图像处理等)则由专门
氧化锌(ZnO)作为宽禁带Ⅱ-Ⅵ族半导体材料,因其室温下高达60meV的激子束缚能而具有优良的光电性能,并受到了人们的广泛关注。ZnO在透明导电薄膜(transparent conducting film
中医外科学在历经几千年的发展过程中,发明和保存了极其丰富的内、外治法,颇具中医学的特色.从历代医家对其进行的诸多深刻研究中,充分体现了中医学的整体观念,且蕴藏着哲学
研究紫外线辐射对不均匀电场下气体放电的影响规律,具有重要的理论意义和工程运用价值。根据相关文献:地表太阳紫外线辐射随海拔高度的增加而增强;模拟太阳紫外线辐射的基本
<正>十九世纪以来,随着西方列强的扩张和海通时代的到来,中国日益成为世界的一个部分,也就是梁启超所说的"世界之中国"。然而,但凡涉及此议题的著述,较多关注国家意义上的外
微电子和计算机技术的迅猛发展,推动海军舰船电子装备技术不断进步,对其测试系统的测试能力、测试速度和测试精度等的要求越来越高,传统的维修测试手段已不能满足需要。目前,