论文部分内容阅读
垃圾邮件不仅占据了邮件服务器的大量存储空间,还严重干扰了人们正常的信息交流。如何有效地控制垃圾邮件成为了一个重要的课题,越来越多的学者致力于邮件过滤技术的研究。支持向量机是采用了结构风险最小化的学习方法,具有较好的推广能力,已广泛应用于分类器的设计和数据挖掘等领域。本文主要研究了基于支持向量机的邮件过滤算法。有关核函数的研究是支持向量机的核心问题之一,本文在实现了基于支持向量机的邮件过滤算法的基础上,对支持向量机中的核函数进行了分析,构造了基于邮件集特征的径向基核函数,多项式核函数和组合核函数。实验结果表明构造的核函数是合理的,不仅简化了参数选择问题,而且改善了过滤算法的性能,具有一定的理论价值与实用价值。本文的主要研究工作有以下几点:实现了基于支持向量机的邮件过滤算法,通过大量实验分析了邮件集特征和核函数对该算法的影响。分别采用了不同的邮件样本集进行多次实验,分析邮件集特征对该算法的影响;接着分别针对径向基核函数和多项式核函数进行多次实验,分析这两种核函数对过滤算法的影响。构造了基于邮件集特征的径向基核函数-MRbf和多项式核函数-MPloy。根据前两章的实验结论,结合邮件集特征,分别对径向基核函数和多项式核函数进行改进,得到了基于邮件集特征的径向基核函数MRbf和基于邮件集特征的多项式核函数MPloy。对比实验的结果表明,MRbf和MPloy不仅更容易使用,而且使过滤算法获得了更好的性能。构造了基于径向基核函数和多项式核函数的组合核函数和基于邮件集特征的组合核函数-MRP。从学习能力和推广能力上对径向基核函数和多项式核函数进行了比较,发现二者各有优劣。为了结合两者的优点,根据核函数的凸组合理论,构造了基于径向基核函数和多项式核函数的组合核函数,但是参数太多使得核函数不易控制,因此对其进行改进,得到了基于邮件集特征的组合核函数MRP。实验结果表明MRP使得过滤算法的性能得到了较大的改善。