论文部分内容阅读
数量庞大的垃圾电子邮件既造成资源的浪费,又对计算机安全构成威胁。为了解决这些问题,相关研究人员从多个角度出发研究垃圾电子邮件处理方法。在现有的方法中,机器学习方法和人工免疫系统准确率高、鲁棒性好、自适应性强,且应用最为广泛,具有重要的研究意义和良好的发展前景。本文深入分析和讨论机器学习方法和人工免疫系统的原理和特点,并将两类方法的机制相融合,围绕特征提取、分类器设计、多分类器集成三个方面,研究基于免疫的垃圾电子邮件检测方法,主要贡献包括: (1)提出一种基于免疫局部浓度的特征提取方法。该方法将免疫局部浓度思想与统计学方法相结合,采用词筛选方法有效过滤噪声并降低计算复杂度,通过基因倾向度函数增强检测器集的抗噪能力和鲁棒性,并运用定长和变长滑动窗口策略有效提取出与位置相关的浓度信息。该方法提取的局部浓度特征具备统计意义的可区分性,取得了较高的准确率和F1度量值。 (2)针对数据分布不均的学习问题,提出一种多目标风险最小化学习准则。在数据分布不均的情况下,单独采用全局或局部风险最小化学习准则不能取得最优的分类效果。为了解决该问题,该准则在学习过程中同时兼顾到全局风险和局部风险,使得学习模型与数据分布间更好地匹配。 (3)提出一种基于免疫危险区域原理的动态学习方法。该方法是对多目标风险最小化学习准则的一种实现,运用免疫危险区域对局部分布进行估计,并对学习模型的局部特性进行动态调整,以使学习模型与数据分布相匹配。与全局和局部方法相比,该方法取得了较优的分类性能,反映了多目标风险最小化学习准则的合理性。 (4)提出一种基于免疫危险理论的多分类器集成方法。该方法运用不同的分类器分别产生匹配信号和危险信号,并定义出相关的危险区域对信号间进行交互,进而判别各个分类器对新邮件分类的一致性,并在此基础上选取出一致性好的分类器进行加权分类。仿真实验表明,该方法能够有效地综合各分类器的特点得到更优的分类性能。 (5)将动态学习方法与多分类器集成方法相结合,进一步提出一种带局部调整策略的多分类器集成方法。当分类器集合不能取得有效一致的分类时,对整个集合的局部特性进行动态调整,使得集成模型与数据分布间更好地匹配。与现有的多分类器集成方法、多分类器选择方法相比,该方法取得更高的集成性能。