垃圾邮件过滤技术研究

论文部分内容阅读

随着Internet的发展，电子邮件已经成为人们重要的交流方式，许多重要的信函也会通过电子邮件方式传送。但是，随着电子邮件的不断发展，这时垃圾邮件也开始泛滥。垃圾邮件使得用户必须花费大量的时间和精力来处理它们，并且由于还占用了大量的带宽和存储资源，造成了资源的浪费。因此，研究垃圾邮件的过滤技术具有重要的现实意义。当前解决垃圾邮件过滤问题有很多的方法和途径，其中基于内容的过滤就是一个主要方法。而在基于内容的过滤方法中当前应用的最为广泛是基于贝叶斯的垃圾邮件过滤方法，但同基于支持向量机的邮件过滤方法相比，它的正确率和召回率却相对较低。支持向量机是从统计学习理论上发展起来的一种新颖的模式识别方法，有着其他机器学习方法无法比拟的优势，诸如：结构风险最小化、全局唯一解、良好的推广能力、在非线性和高维模式中也表现出很好效果。但目前用于邮件过滤的支持向量机方法中采用的是传统的支持向量机算法，在需要处理大量的邮件数据的情况下，存在训练时间过长，精度和准确度随时间的推移健壮性不太理想等问题；并且在实际应用中，由于收集合法邮件较垃圾邮件困难，这样使得收集的训练集中垃圾邮件类与合法邮件类样本之间出现不平衡，而传统的支持向量机在处理不平衡问题时，会造成分类面靠近训练样本较少的一类的问题；传统支持向量机在处理分类问题时，要求训练集中的每个训练样本都应明确归属一类，当出现训练样本不能明确地归属于一类时它就无能为力，并且对于干扰分类的噪声点的区分效果不是很理想，使得噪声点严重地影响分类的准确性。针对支持向量机的以上缺点，本文提出了两种用于邮件过滤的支持向量机方法：并行分层支持向量机邮件过滤方法和模糊支持向量机邮件过滤方法。本文的研究工作主要包括如下两个方面：第一，提出了并行分层支持向量机邮件过滤方法。其主要思想是将邮件样本集划分为几个子样本集，采用分层形式在每一层并行地训练支持向量机。在分层筛选中通过使用交叉合并方法来达到缩短训练时间又不降低邮件的分类能力。而且采用的交叉合并方法同时又可以避免出现两类训练样本数量的不平衡而导致分类信息的损失。在该邮件过滤方法中，同时使用主成分分析对邮件的特征维数进行约简，来共同减少过滤器训练和测试时间。仿真实验表明：算法在减少时间的同时也有较好的准确率和召回率。第二，针对传统支持向量机无法处理当出现训练样本不能明确地归属一类的情形，提出了基于误分损失的模糊支持向量机邮件过滤方法。在传统的支持向量机方法中参数C是固定的，也就是说，无论是合法邮件或是垃圾邮件，在训练时，都给予平等地对待。但在邮件过滤中，错分合法邮件比错分垃圾邮件更严重，通过在模糊支持向量机中引入不同邮件类的误分损失，确保合法邮件尽可能不被错分。提出了一种通过计算邮件样本的分布密度的方法来解决邮件样本的隶属度问题，这种方法同时可以较好地减轻噪声数据对支持向量机的影响。对比实验表明，算法进一步提高了邮件过滤系统的正确率，可以改善过滤器的性能。

与本文相关的学术论文