基于神经网络集成的垃圾邮件过滤系统设计

来源 :山西财经大学 | 被引量 : 0次 | 上传用户:hellson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的推广与应用使得电子邮件已经成为人们信息交流的重要手段,但随之而来的垃圾邮件问题严重影响人们的生产和生活。垃圾邮件过滤技术的研究具有十分重要的意义。目前存在的垃圾邮件过滤技术存在诸多不足,不能完全地将垃圾邮件过滤掉。为了达到将垃圾邮件完全过滤的理想状况,需要研究一种更加有效的垃圾邮件过滤技术,提高邮件分类的准确率。集成可以提高分类器分类的准确率。在目前应用于垃圾邮件过滤的机器学习方案中,神经网络是比较有效的方法之一。但是,神经网络容易陷入局部极小值,造成邮件的误分。因此,将神经网络进行集成,采用神经网络集成技术将多个不同的神经网络单分类器组合成一个分类器,集成的输出由构成集成的各神经网络的输出共同决定。基于该思想来提高学习的系统的泛化能力,提高过滤系统的过滤性能。本文就此方面进行研究。本文设计的邮件过滤系统模型由邮件预处理、特征提取、分类器设计三个部分组成。其中,邮件预处理把标准邮件语料库中的数据表示为计算机容易识别和处理的向量空间模型(VSM)形式;特征提取采用信息增益(IG)算法降低了数据的维数,提高了算法的运行效率;分类器设计采用神经网络集成的方法Boosting和Bagging来构造邮件分类器,通过组合多个单分类器的输出结论的方式训练分类器,确定邮件的类别,对垃圾邮件进行过滤。在垃圾邮件语料库PU系列语料库上分别进行了实验。除传统评价指标外,本文还采用混淆矩阵(Confusion Matrix)的评价方法,通过与单分类器RBF神经网络的过滤性能比较,证明了神经网络集成对于垃圾邮件的过滤有较好的效果。
其他文献
随着信息技术的发展,多媒体视频压缩标准已在很多领域得到了成功应用,如VCD(MPEG-1)、视频会议(H.263)、DVD(MPEG-2)和机顶盒(MPEG-2)等等。MPEG-4作为第二代视频编码标准,以
时间序列数据泛指随时间或空间有序变化的数据,这些数据往往采用等时间或等空间间隔测量。时间序列数据广泛应用于商业、经济、地质、生物医药、太空探测等诸多科学工业领域中
计算机信息安全已经成为人们普遍关注的重要问题。2002年以前安全领域研究的重点集中在黑客、木马和病毒等来自组织外部的安全威胁,然而随着计算机网络应用的发展,来自组织内
随着网络技术的发展,集群系统的应用也越来越广泛。将多台应用服务器互连组成一集群系统,可以发挥单台应用服务器无法比拟的高性能。应用服务器集群系统中,对各个节点的管理(
随着经济的发展,重型卡车的使用率越来越高,随之而来的,安全隐患事故也不断发生,给人们的生产,生活安全带来了威胁,其安全性也越来越受到人们的重视。如何防止重型卡车翻侧已
随着Internet的发展,IPv4地址资源即将用完,近年来IPv6网络开始普及。网络安全向来是互联网的重头戏,IPv6网络也不会例外。而且可以预见DDoS攻击将是IPv6网络的主要安全问题
随着Web服务成为当今网络应用的主流,针对于此的恶意程序和黑客攻击越来越多,造成了巨大的危害。Web服务是一种应用层服务,同样Web攻击也属于应用层攻击的范畴,具备应用层攻
工作流管理系统主要是负责协调过程实例中的各个任务,以保证过程实例在其有效期内的顺利完成。然而,过程实例在执行过程中需要调用各类资源,如人员、软件系统等等,时间跨度很长,其
脑机接口(Brain-Computer Interface,BCI)是基于脑电信号实现人脑与计算机或其他电子设备的通讯和控制的系统,它不依赖于脑的正常输出通路(外周神经系统及肌肉组织),是一种全
长期以来,农药以其见效快、防治面广、性质稳定、便于储运、价格低廉等优点,在防治农作物病虫草害中发挥着巨大作用,促进了我国现代农业的发展。同时,化学农药的大量使用和滥