基于最小风险贝叶斯的多层次邮件过滤系统的研究与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhuang_3210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及,电子邮件在人们的生活中占据了越来越重要的地位。由于它使用方便、发送快捷、成本低廉等优点被人们使用,成为现代社会中非常重要和广受欢迎的通讯方式之一。但是电子邮件也带了一些负面影响,尤其是垃圾邮件日益泛滥,它严重的占用系统资源,浪费用户时间并且威胁到网络的安全。目前已成为互联网上急需解决的问题,因此设计并实现有效的垃圾邮件过滤模型具有重要的现实意义。针对目前垃圾邮件普遍存在的一些问题,本文从以下四个方面提出了解决方法:(1)目前的垃圾邮件技术大多集中在机器学习和数据挖掘领域,但大多数的算法不能有效地过滤垃圾邮件,因此针对垃圾邮件过滤中存在的漏报和误判问题,本文提出了一种改进的最小风险贝叶斯算法。该算法与AdaBoost算法相结合,实质上就是以最小风险贝叶斯算法为基分类器,使用AdaBoost算法作为训练分类器的框架,通过训练经常被分错类的训练样本,并对其进行标记以此来达到提高邮件分类准确率的目的。两个算法结合后,提高了分类的准确率和查全率,并且取得了良好的过滤效果。(2)在做实验的过程中,发现一个问题:不一定改进的算法在过滤所有信息时一定比原始算法好。针对该问题提出了一种分流过滤垃圾邮件的思想。分流过滤垃圾邮件的方式就是根据邮件的内容,先将邮件进行第一次简单的分类,分成不同的类别,再进行第二次分类,将其划分到擅长过滤这种内容的模块中,这样划分可以更好的利用算法,有针对性的过滤。(3)针对单一的过滤技术难以有效过滤垃圾邮件的问题,提出了一种多层次过滤垃圾邮件的方法。将黑/白名单、基于关键词、基于规则、基于内容等多种方法相融合,对邮件的主题、附件名的关键词、邮件正文内容以及附件的文本内容等信息进行过滤,多层次过滤可以充分的发挥每个技术的优点,达到了比较理想的过滤效果。(4)设计并在Microsoft Visual Studio 2005平台上实现了基于内容的多层次邮件过滤系统。训练和测试邮件样本都来源于中国教育和科研网紧急响应组(CCERT)垃圾邮件数据库,从该数据库中选取合法邮件400封,垃圾邮件200封进行试验,实验证明了这种邮件过滤的思想是有效的。
其他文献
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能协作地监测、感知和采集各种环境或监测对象的信息,并进行处理,最终将信息传送给感
目前,ARINC-429数字信息传输规范已成为航电设备之间数字传输工业标准,但在ARINC-429数据传输的多路总线接口设计中大多数还采用中断形式实现。由于中断引脚资源有限导致设备扩
计算机辅助检测(Computer-aided detection, CAD)是指用数字图像处理技术和计算机视觉技术等,帮助医生解读海量图像,获得有价值的诊断信息。CAD系统不仅有助于提高医生诊断的
随着信息技术的高速发展,移动通信工具的使用已经渗透到人们日常生活的各个方面,同时人们对于移动通信网络服务质量要求越来越高。随着用户群的不断增大,移动通信网络所承受
无线传感器网络是由大量分布的不同规格和功能的具有感知、计算和通信能力的微型传感器节点通过自组织的方式构成的一个以数据为中心的无线网络。大量传感器节点通过相互之间
本文以面向行程时间预测的公交车GPS数据挖掘为主题,围绕该主题,进行了相关内容的研究。论文共分七章。第一章给出了本论文的相关研究背景和意义、研究现状和论文主要研究工
计算流体力学(Computational Fluid Dynamics,CFD)采用数值计算方法针对复杂流动问题进行求解以发现各种流动的现象和规律,已经广泛应用在航空、航空、气象等领域。格子Boltzma
序列模式挖掘技术研究作为数据挖掘与知识发现领域的重要分支,它的目的是发现有趣的序列事件,为理论或实际应用提供数据支持。不同于传统序列模式挖掘思路,负序列模式提供了
随着互联网的高速发展,网络信息量大幅增长,面对海量数据信息用户无法快速有效地获得对自己有用的信息,即“信息过载”问题,搜索引擎和推荐系统是解决“信息过载”问题的重要
近年来,针对数据流的挖掘研究已成为数据挖掘领域中一个新的研究热点。和传统静态数据库中的数据不同的是,数据流具有连续的、无限性、和实时性的特点,使得传统的频繁模式挖