基于LSA和MD5算法的垃圾邮件过滤系统研究

来源 :兰州理工大学 | 被引量 : 6次 | 上传用户:zhenlic0300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要的方法。本文采用潜在语义分析方法(LSA),通过对邮件样本集进行训练,用其产生的分类器对待测邮件内容进行文本分类、信息过滤,从而获取垃圾邮件。但LSA在权重计算上多继承向量空间模型,忽视了其自身特点,导致缺乏文档先验信息和文档全局信息植入,使得在实际应用中过分机械。为了解决这个问题,本文通过引入一种新的权重函数来改进原有方法,使得基于主动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤系统。通过实验表明,采用扩展权重计算方法的LSA,在性能上优于传统权重计算方法的LSA。针对现阶段多数垃圾邮件主体或发信人地址常动态改变,其正文及附件内容却基本一致,而在拥有数万用户的大型局域网中,垃圾邮件普遍以群发的方式在网内传播这些现象,本文利用Message-Digest Algorithm 5(MD5),在LSA分析的基础上,对群发型垃圾邮件生成“邮件指纹”,以解决过滤技术在处理群发型垃圾邮件中低效的问题,进一步提高了垃圾邮件系统识别的准确率。文中采用中国反垃圾邮件联盟收集的数据集,对基于LSA和MD5算法的垃圾邮件过滤系统进行测试评估,经与Na(?)ve Bayes算法过滤器进行比较,证明该方法在垃圾邮件过滤上优于Na(?)ve Bayes方法,并通过实验验证了该方法的可行性、优越性。但是,本文所作的都是基于实验环境下的,要将该方法真正用于实际的电子邮件系统,还有大量的工作需要去做。
其他文献
在自然语言处理的诸多领域的研究中,双语语料库的重要作用逐渐显现出来。在不同的应用中,需要不同粒度的双语对齐的语料库和相应的双语对齐技术。双语语料库的对齐技术按粒度可
随着计算机和网络技术的飞速发展,许多机构都建立起自己的内部网络。其极大地推动了组织的信息化进程的同时,各种违规服务的出现也带来了诸多管理与安全问题。目前,存在的各
随着高校校园网的建设,基于校园网和INTERNET的应用系统的开发正在蓬勃发展,建设高水平的大学教务管理信息系统是基础和关键。本论文针对教务管理的现状,提出了基于J2EE架构下开
组件和基于组件的软件开发是目前软件工程领域研究的热点。基于组件的开发方法使得软件系统的开发和维护变得更为简单,并且大大地提高了软件的可复用性和软件开发效率。但是,
一种引入了AJAX技术的新型Web应用模型正在兴起。基于AJAX技术的WEB应用模型的核心在于它是一种基于单页面的交互模型,整个应用由单个或少量的几个页面组成,而页面的各个部分可以独立与服务器交互,因此可按需局部刷新页面,从而节省了网络带宽,减轻了服务器端负担,方便了富交互。论文在对AJAX技术研究分析的基础上,进行了实践性开发应用,开发了基于AJAX技术的企业电能管理系统。该系统利用微软最新推出
随着计算机网络的迅猛发展,信息安全越来越受关注。信息隐藏技术是一种重要的信息安全技术,而数字图像水印算法又是信息隐藏技术研究的一个热点。   水印加密和水印嵌入是水
随着各种智能移动终端在人们的生产和生活中越来越普及,人们开始更多地使用定位服务,包括行车时目的地的导航、博物馆导引、查找附近的商店等等,因此对定位服务提出了更多的
学位
随着计算、通信和数字媒体技术的发展和渗透,以及嵌入式计算和通信设备的快速兴起,一种全新的计算模式一普适计算一正在兴起和发展。普适计算是信息空间与物理空间的融合,在
随着多媒体技术及工业视觉的迅速发展,嵌入式的图像信息资源的检索已成为国内外研究的热点。基于各种嵌入式平台建立有效的图像描述和检索机制已成为迫切需要解决的问题,基于