基于决策树的邮件分类技术研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:fcsleep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的迅猛发展,电子邮件得到了越来越广泛的应用。电子邮件一方面给人们提供经济、方便和快捷的服务,另一方面也给一些商人和不法分子提供了利用它进行违法行为和宣传的机会。2006年第一次中国反垃圾邮件状况调查报告显示,2005年11月到2006年2月,中国互联网用户收到的垃圾邮件比例达到63.97%,垃圾邮件每年给国民经济造成63亿损失。对电子邮件进行分类过滤是有效对付垃圾邮件的主要手段。目前的过滤技术手段主要分为二种,一种是针对邮件地址的过滤,另一种是针对邮件内容的过滤。这两种技术都缺乏智能性和自适应性,因此研究能根据邮件的不断变化来学习识别垃圾邮件的特征,自动建立和升级新的垃圾邮件特征代码和过滤规则条件,并智能地用于新邮件的分类过滤系统具有较大的现实意义。本文针对邮件分类技术进行了研究,主要工作如下:1.分析了垃圾邮件可能出现的类型,深入研究了当前邮件分类技术的国内外研究现状,特别是基于决策树的邮件分类技术。2.提出了一种改进的基于测试属性对分类贡献的属性选择标准。该方法在建立每个内结点进行计算属性对分类的贡献程度时,选择的数据集的范围是其父节点在该节点分支所划分得到的数据集,而不是整个训练集。与改进前的方法比较,生成的决策树结点少、树较浅,提高了分类准确率。3.理论证明了该方法没有多值偏向,与基于信息熵的选择标准比较,执行效率更高。4.建立了基于决策树的邮件分类模型,并实现了模型模拟器。该模型具有自适应、自学习能力,当有新的、不同于历史训练库的特征出现时,则累计并存贮邮件特征向量库,当变化的特征向量数达到某一个阈值时,则启动邮件规则的形成。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
摘要:本文对建筑施工质量成本的构成进行了分析研究。根据建筑工程施工的特点,论述了房屋建筑施工质量成本控制的内容及控制的方法。  关键词:质量成本,工程返修率,PDCA循环    中图分类号:TU198文献标识码: A 文章编号:    Abstract: in this paper, the construction quality cost structure is analyzed. Acco
期刊
求解非线性矩阵方程的问题主要是通过分析所给方程参数的性质来得到方程的解.由于Hermite正定解在实际中应用较多,所以我们只讨论此类解的情况.在现实生活中,方程X+AXA=I的来源相
本文主要研究了相对于半对偶R-模 C的Gorenstein同调模(即Goren- stein C-投射模,Gorenstein C-内射模和Gorenstein C-平坦模)的性质.首先,我们引入了二次Gorenstein C-同调模的
在技术经济分析的应用中多数时候都是在方案的设计过程中进行应用,而忽视了其对施工管理的应用,这就导致了在多变的施工过程中很难降低施工的成本,为此本文结合技术经济分析特征
期刊
建设高素质的领导干部队伍,形成朝气蓬勃、奋发有为的领导层,是党的十六大报告中关于加强和改进党的建设的重要内容。笔者认为,为官者,既要有能,更要有德。第一,“官德”在于
数值求解双曲型守恒律问题是与流体力学、大气物理学、海洋学、航空航天等学科密切相关的一个前沿研究课题。自20世纪50年代至今,有关这一课题的研究工作得到了迅速的发展,所得
创新宣传思想工作,为加快发展提供强劲动力,是我们面临的一个重要课题。在这方面,我们强调了三个“创新”。一、坚持与时俱进,实现宣传工作观念创新在工作定位上,强化全局观
期刊
本文的研究重点是考虑股指期货进行短期套利情形下,如何构造现货组合,求解出最优权重配置使追踪误差最小化。 在传统的二次规划和线性规划模型上考虑了股票的异方差性,加入了