垃圾邮件过滤系统的改进及样本库生成系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:andyvssammi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对垃圾邮件过滤的各种技术和算法的不断发展,大部分基于机器学习的文本分类算法在实际使用中取得了较好的效果,但由于采用了文本分类中的一些算法,大部分算法都要求在应用前就需要用已分类好的邮件样本对过滤系统进行学习、训练,以达到过滤系统性能最优化。邮件样本特别是正常邮件样本集的缺乏成为阻碍过滤技术发展的一个重要问题。同样为了比较各种过滤算法的性能,需要在同一个基准上的实验结果才有可比性。缺乏邮件样本集的基准使得评价各种过滤系统的性能变得很难实现。为此,本学位论文对样本集构建过程中的关键技术进行了研究,并以CERNET华东(北)地区网络中心的邮件服务器为实验环境,设计和实现了一样本库生成系统。在此基础上,根据构建样本库过程中对收集的垃圾邮件特征的研究,在不改变原有综合邮件过滤系统框架的前提下使用BNR算法对网络中心现有的邮件过滤系统进行了相应的改进,以提高系统的过滤性能。 论文在研究目前邮件样本集现状的基础上,根据邮件过滤算法的需求,设计了构建一个基于真实邮件环境,能够生成包含标准邮件分类的中英文邮件样本集生成系统。 首先,论文从技术和非技术两个方面提出了构建样本集中存在的问题,并通过对现有构造样本集的方法的研究分析得出目前过滤系统所需的是能够模拟真实邮件环境的包含标准分类的邮件样本集。在此基础上,根据实际邮件收集环境特点,论文着重研究了构建样本库生成系统的关键技术,主要包括用户评判邮件技术、用户评分和正常邮件隐私保护等方面,提出采用识别重复邮件、模糊综合评判、多层信息抽取替换并加密存储等方法并具体实现。 其次,论文在对关键问题研究的基础上,给出了样本库生成系统的总体结构设计,以及各个子系统的实现机制和功能结构,实现了一个可基于真实邮件环境,结合用户人工评判的生成标准邮件样本集的生成系统,并将该系统在CERNET华东(北)地区网络中心的邮件服务器环境下投入使用。并且从系统生成的样本集各项数据对系统的性能进行了实验和分析,结果表明,该系统生成的邮件样本集满足了邮件来自真实环境且邮件样本标准分类的需求,验证了系统的有效性。 再次,论文研究了现有的邮件过滤系统运行过程中存在的问题,并从升级病毒过滤软件、调整系统自学习资源和引入BNR算法三个方面对系统进行了部分改进,并通过第三方评测系统的实验数据分析表明改进后的系统具有较好的过滤性能。 论文最后作了简要的总结,同顾论文完成的工作并对未来工作进行了展望。
其他文献
XML由最初的文档管理发展成为优秀的Internet数据交换格式。它被广泛应用于各种数据的存储和交换。近来,XML数据处理在工业和科研领域得到了广泛的认同,它同时也是一个研究热点
云计算技术在近几年越来越成熟,越来越多的数据密集型信息中心部署了自己的云。为了满足现在社会大众对于计算能力、存储空间以及相关计算服务的复杂多变的需求,云计算技术很
随着计算机和网络技术的普及和应用,计算机安全变得越来越重要。入侵检测是计算机安全体系结构中的一个重要的组成部分,但面对日益更新的网络环境和层出不穷的攻击方法,传统构建
纹理合成有着非常广阔的应用背景,比如在布料产品、软体家具包装、各种台面纹理、汽车内饰等产品表面设计的过程中,以及影视特效制作、电子游戏等行业,都需要对大量的表面纹
计算机病毒出现以来,已对个人计算机系统及网络安全造成了巨大危害。随着计算机应用范围的进一步扩大,计算机病毒数量急增,并一直处于不断进化和高速发展的过程。目前,大多数反病
滑模控制作为一种非线性控制,与常规控制的根本区别在于控制的不连续性。它利用一种特殊的控制方式,强迫系统的状态变量沿着人为规定的相轨迹滑到期望点。由于给定的相轨迹与
集群系统以其卓越的性价比、良好的可扩展性、高可用性和可兼容性,逐步成为当今计算机体系结构和并行处理研究的热点。尤其是在金融领域内,还广泛存在着计算节点资源利用率低、
最优化(Optimization)是运筹学的一个重要的分支,它研究决策问题的最佳选择之特性,构造寻求最佳解的计算方法,研究这些计算方法的理论性质及实际计算表现。最优化问题可以简单的
随着互联网的广泛应用,人们对互联网的要求越来越高。传统的网络分布模型已经不能满足网络用户日益提高的需求,因此,Web Services(Web服务)应运而生。Web Services与传统的网络
分形图像压缩编码是一种具有高压缩比的新型图像压缩编码方法。这种方法利用了图像的自相似性对图像进行压缩。分形图像压缩编码的数学基础是迭代函数系统(IFS)、拼贴定理,其