论文部分内容阅读
随着Internet应用的迅猛发展,电子邮件得到了越来越广泛的应用。电子邮件一方面给人们提供经济、方便和快捷的服务,另一方面也给一些商人和不法分子提供了利用它进行违法行为和宣传的机会。2006年第一次中国反垃圾邮件状况调查报告显示,2005年11月到2006年2月,中国互联网用户收到的垃圾邮件比例达到63.97%,垃圾邮件每年给国民经济造成63亿损失。对电子邮件进行分类过滤是有效对付垃圾邮件的主要手段。目前的过滤技术手段主要分为二种,一种是针对邮件地址的过滤,另一种是针对邮件内容的过滤。这两种技术都缺乏智能性和自适应性,因此研究能根据邮件的不断变化来学习识别垃圾邮件的特征,自动建立和升级新的垃圾邮件特征代码和过滤规则条件,并智能地用于新邮件的分类过滤系统具有较大的现实意义。本文针对邮件分类技术进行了研究,主要工作如下:1.分析了垃圾邮件可能出现的类型,深入研究了当前邮件分类技术的国内外研究现状,特别是基于决策树的邮件分类技术。2.提出了一种改进的基于测试属性对分类贡献的属性选择标准。该方法在建立每个内结点进行计算属性对分类的贡献程度时,选择的数据集的范围是其父节点在该节点分支所划分得到的数据集,而不是整个训练集。与改进前的方法比较,生成的决策树结点少、树较浅,提高了分类准确率。3.理论证明了该方法没有多值偏向,与基于信息熵的选择标准比较,执行效率更高。4.建立了基于决策树的邮件分类模型,并实现了模型模拟器。该模型具有自适应、自学习能力,当有新的、不同于历史训练库的特征出现时,则累计并存贮邮件特征向量库,当变化的特征向量数达到某一个阈值时,则启动邮件规则的形成。