论文部分内容阅读
电子邮件技术是一把双刃剑,它的普及给人们的交流带来了极大便利,同时垃圾邮件的泛滥也已经影响甚至威胁到人们日常的生活和工作。在当今高速网络环境中,大多数邮件安全网关通过解析邮件内容过滤垃圾邮件,这种过滤方式耗时费力。本文将从提高邮件安全网关在高速网络环境中的应用性能出发,针对邮件地址匹配算法和不需要解析邮件全文的垃圾邮件识别方法进行研究。首先,针对邮件地址匹配算法方面进行了研究,涉及到多模式匹配算法。WM(Wu-Manber)算法是一种经典的多模式匹配算法,然而将WM算法直接应用于海量规模的邮件地址匹配时,由于没有考虑邮件地址的特征,算法效率并不高。本文提出一种支持海量规模邮件地址匹配的ME-WM算法。ME-WM算法结合WM算法自身特点和邮件地址特征,针对WM算法存储结构和匹配流程进行优化。ME-WM算法利用一种高效的哈希模型减少哈希冲突;通过布隆过滤器存储和匹配邮件地址的域名,避免了邮件域名的重复存储,降低了算法的内存消耗;通过使用红黑树处理产生哈希冲突的元素,降低精确匹配耗时。最后通过与传统WM算法及其改进算法RFP-WM、Prefix Tree-WM算法进行对比实验,对比其时间性能和空间性能,证明ME-WM算法非常适合应用于海量规模的邮件地址匹配。其次,针对垃圾邮件的识别技术进行了研究。本文提出了一种基于时窗增量的中文垃圾邮件识别模型,利用决策树算法分析垃圾邮件的标题部分,探索标题特征与垃圾邮件之间的关联规则,应用这些规则,建立一个高效、准确的垃圾邮件识别模型。本文的垃圾邮件识别模型具有以下优点:不需要解析邮件全文,只分析电子邮件的标题部分,减少了计算的复杂性,提高了邮件网关的过滤性能;引入了适应互联网开放环境的中文分词算法;构造了加权时间窗口,用于计算每封待过滤邮件的概念漂移得分,将概念漂移作为一种构建决策树的关键因素,不需要重构分类器以解决概念漂移问题;设计了一种增量学习机制来扩充垃圾邮件关键词表,提高模型对动态环境的适应能力。最后通过实验证明本模型的有效性,并且性能优于改进的贝叶斯模型、优化的SVM模型和变精度粗糙集决策树模型。