基于内容的垃圾邮件过滤技术的研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:allanvte
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速普及,电子邮件已经成为了现代通信的主要手段之一。然而垃圾邮件的出现和泛滥也引起了人们的高度重视。邮件过滤已经成为当前研究的热点之一,出现了多种反垃圾邮件技术。基于内容的过滤器通常位于整个过滤系统的核心部分,对性能和准确率都有很高的要求。本文首先介绍了现有的一些基于内容的邮件过滤方法,以及邮件系统的相关理论知识。深入研究了粗糙集属性值离散化,属性约简和支持向量机分类技术,提出了粗糙集-支持向量机(RS-SVM)的邮件过滤解决方案。该方案首先通过对邮件内容进行分词,特征选取和计算特征权重,将邮件数据集表示成向量空间的形式。然后采用属性离散化技术对向量空间的属性权重进行离散化,再用粗糙集约简技术对向量空间进行降维,减少特征项。最后利用支持向量机对新的向量空间进行训练生成过滤器。文中通过对通用的邮件语料进行实验表明了该方案的可行性,并将结果同没有采用粗集约简的支持向量机方法进行了对比。实验结果显示:RS-SVM方案不但保持了与之相当的分类精度,而且具有更快的邮件分类速度,说明该方案可以用来提高过滤器的邮件检测判别速度。最后将该方案应用到客户端过滤当中,给出了原型系统的类图,流程设计,运行界面以及功能介绍。
其他文献
数据库压缩是最近几年提出的用于提升关系型数据库性能的一项新技术。数据库压缩技术将关系数据库进行压缩存储,不仅节约了磁盘的空间占用量,并且更多的数据记录被压缩存放入同
近年来,关于无线Ad-Hoc网络的研究,特别是在新的介质访问技术方面取得了相当可观的进展。但是,Ad-Hoc网络的一些很显著的缺点却依然存在。基本的容量限制、链路的连通性及存活性
考试制度是我国现行教育体制和各类评审选拔中的一个重要环节。文字类考试题分为客观和主观题。客观题的考后判分可以用计算机实现,主观题尚无法有效地通过计算机进行评判,有必
肺癌是最常见的内脏恶性肿瘤,也是已知的确诊后存活率最低的癌症之一。肺癌的发病率逐年上升,在城市已居肿瘤死亡率首位。研究基于肺部CT图像的肺癌计算机辅助检测与诊断系统
工作流技术是实现企业业务流程自动化的核心,有助于提高企业的生产率与竞争力。随着企业业务范围的延伸,涉及多个组织的业务流程增长迅速。因而,提高工作流系统的协作能力,使其支
近年来,随着智能终端的普及,移动互联网也快速发展。基于地理位置的服务(Location-Based Service,以下简称LBS)已经成为了一种方便且被用户所熟知的服务。用户只需使用智能终
P2P(对等网络)技术是一种新的通信模式,近年来取得了飞速的发展,在网络资源共享、对等计算、协同工作、即时通讯等方面都有着广泛的应用。然而P2P流量在推动Internet发展的同
遥感图像上的水域识别是图像分类中的一个重要问题。不论是地形分类、水上目标的识别,还是海上遥感应用,都需要准确的水域识别予以辅助。单源可见光遥感图像上的水域识别难以达
随着计算机互联网技术的不断发展,网络规模不断扩大,网络流量爆炸增长,网络运行状态检测在当今的网络中变得日益重要。做为网络性能定量描述中的一个重要参数,可用带宽是网络管理
近年来,人体运动的视觉分析在图像处理与计算机视觉领域引起了广大学者的关注。这一课题在虚拟现实、智能监控、高级用户接口、运动分析、视频压缩等领域具有广阔的应用前景