论文部分内容阅读
随着互联网的迅速普及,电子邮件在人们的生活中占据了越来越重要的地位。由于它使用方便、发送快捷、成本低廉等优点被人们使用,成为现代社会中非常重要和广受欢迎的通讯方式之一。但是电子邮件也带了一些负面影响,尤其是垃圾邮件日益泛滥,它严重的占用系统资源,浪费用户时间并且威胁到网络的安全。目前已成为互联网上急需解决的问题,因此设计并实现有效的垃圾邮件过滤模型具有重要的现实意义。针对目前垃圾邮件普遍存在的一些问题,本文从以下四个方面提出了解决方法:(1)目前的垃圾邮件技术大多集中在机器学习和数据挖掘领域,但大多数的算法不能有效地过滤垃圾邮件,因此针对垃圾邮件过滤中存在的漏报和误判问题,本文提出了一种改进的最小风险贝叶斯算法。该算法与AdaBoost算法相结合,实质上就是以最小风险贝叶斯算法为基分类器,使用AdaBoost算法作为训练分类器的框架,通过训练经常被分错类的训练样本,并对其进行标记以此来达到提高邮件分类准确率的目的。两个算法结合后,提高了分类的准确率和查全率,并且取得了良好的过滤效果。(2)在做实验的过程中,发现一个问题:不一定改进的算法在过滤所有信息时一定比原始算法好。针对该问题提出了一种分流过滤垃圾邮件的思想。分流过滤垃圾邮件的方式就是根据邮件的内容,先将邮件进行第一次简单的分类,分成不同的类别,再进行第二次分类,将其划分到擅长过滤这种内容的模块中,这样划分可以更好的利用算法,有针对性的过滤。(3)针对单一的过滤技术难以有效过滤垃圾邮件的问题,提出了一种多层次过滤垃圾邮件的方法。将黑/白名单、基于关键词、基于规则、基于内容等多种方法相融合,对邮件的主题、附件名的关键词、邮件正文内容以及附件的文本内容等信息进行过滤,多层次过滤可以充分的发挥每个技术的优点,达到了比较理想的过滤效果。(4)设计并在Microsoft Visual Studio 2005平台上实现了基于内容的多层次邮件过滤系统。训练和测试邮件样本都来源于中国教育和科研网紧急响应组(CCERT)垃圾邮件数据库,从该数据库中选取合法邮件400封,垃圾邮件200封进行试验,实验证明了这种邮件过滤的思想是有效的。