论文部分内容阅读
随着对垃圾邮件过滤的各种技术和算法的不断发展,大部分基于机器学习的文本分类算法在实际使用中取得了较好的效果,但由于采用了文本分类中的一些算法,大部分算法都要求在应用前就需要用已分类好的邮件样本对过滤系统进行学习、训练,以达到过滤系统性能最优化。邮件样本特别是正常邮件样本集的缺乏成为阻碍过滤技术发展的一个重要问题。同样为了比较各种过滤算法的性能,需要在同一个基准上的实验结果才有可比性。缺乏邮件样本集的基准使得评价各种过滤系统的性能变得很难实现。为此,本学位论文对样本集构建过程中的关键技术进行了研究,并以CERNET华东(北)地区网络中心的邮件服务器为实验环境,设计和实现了一样本库生成系统。在此基础上,根据构建样本库过程中对收集的垃圾邮件特征的研究,在不改变原有综合邮件过滤系统框架的前提下使用BNR算法对网络中心现有的邮件过滤系统进行了相应的改进,以提高系统的过滤性能。
论文在研究目前邮件样本集现状的基础上,根据邮件过滤算法的需求,设计了构建一个基于真实邮件环境,能够生成包含标准邮件分类的中英文邮件样本集生成系统。
首先,论文从技术和非技术两个方面提出了构建样本集中存在的问题,并通过对现有构造样本集的方法的研究分析得出目前过滤系统所需的是能够模拟真实邮件环境的包含标准分类的邮件样本集。在此基础上,根据实际邮件收集环境特点,论文着重研究了构建样本库生成系统的关键技术,主要包括用户评判邮件技术、用户评分和正常邮件隐私保护等方面,提出采用识别重复邮件、模糊综合评判、多层信息抽取替换并加密存储等方法并具体实现。
其次,论文在对关键问题研究的基础上,给出了样本库生成系统的总体结构设计,以及各个子系统的实现机制和功能结构,实现了一个可基于真实邮件环境,结合用户人工评判的生成标准邮件样本集的生成系统,并将该系统在CERNET华东(北)地区网络中心的邮件服务器环境下投入使用。并且从系统生成的样本集各项数据对系统的性能进行了实验和分析,结果表明,该系统生成的邮件样本集满足了邮件来自真实环境且邮件样本标准分类的需求,验证了系统的有效性。
再次,论文研究了现有的邮件过滤系统运行过程中存在的问题,并从升级病毒过滤软件、调整系统自学习资源和引入BNR算法三个方面对系统进行了部分改进,并通过第三方评测系统的实验数据分析表明改进后的系统具有较好的过滤性能。
论文最后作了简要的总结,同顾论文完成的工作并对未来工作进行了展望。