论文部分内容阅读
随着Internet的迅速普及,垃圾邮件问题引起了社会广泛的关注。目前解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤是一个较为重要的方法。本文从国内垃圾邮件泛滥的现状出发,以中文垃圾邮件过滤的相关技术为研究方向,重点对潜在语义分析方法、“邮件指纹”生成策略、基于模糊支持向量机的邮件过滤方法、模糊聚类算法在邮件过滤中的应用方式以及基于博弈论的邮件特征选择对过滤性能所产生的影响进行了深入研究:1为了解决潜在语义分析方法(LSA)在权重计算上因继承向量空间模型,而忽视自身特点,导致缺乏文档先验信息和文档全局信息植入,使得在实际应用中过分机械的问题,提出一种新的权重函数来改进原有权重的定义方式,使得基于主动学习的潜在语义分析方法能构造出更适合于实际应用的垃圾邮件过滤模型。并针对现阶段在拥有数万用户的大型局域网中,多数垃圾邮件采用动态改变主体或发件人地址,而其正文及附件内容却基本一致的群发方式在网内传播的现象,提出利用Message-Digest Algorithm 5(MD5)算法,在LSA分析的基础上,对群发型垃圾邮件生成“邮件指纹”,来解决传统过滤技术在处理群发型垃圾邮件中低效的问题,进一步提高了垃圾邮件识别的准确率。2在模糊支持向量机(FSVM)分类方法的研究基础上,通过分析模糊支持向量机在中文垃圾邮件识别时误判样本的特性,提出一种将LSA方法与FSVM方法相结合的垃圾邮件过滤模型,并对FSVM方法中,隶属函数的确定还主要采用基于样本到类中心之间的距离来度量其隶属度大小,而忽略样本与类相融性的问题,依据中文邮件识别的特殊要求,在原有基于距离的隶属函数定义基础上,引入样本与类的融合程度来拓展隶属函数的定义形式,使FSVM方法更加符合中文垃圾邮件过滤这一特定应用需求。通过翔实的实验,验证了这种方法在垃圾邮件识别中的有效性。3为解决在无太多可借鉴的先验知识情况下,对垃圾邮件进行高效、准确过滤的问题,文中采用在文本分类领域广泛应用的模糊聚类分析方法,对垃圾邮件进行无监督的识别。并通过对模糊聚类分析方法在处理大规模数据中所存在问题的分析,提出采用因子分析的方法,将邮件样本集合中的内容特性指标进行简化,在保留原始邮件内容的语义信息同时,简化信息的复杂性,增强后续模糊聚类分析的可操作性;通过在选定的邮件测试集上进行实验,利用DCAFEM对经过特性指标预处理后的邮件样本进行聚类,以计算各类中心点,并采用中心点对比的方法进行邮件的识别。也证实了该方法能够大大提高邮件过滤的精度和对未知垃圾邮件的识别能力。4通过对基于内容的垃圾邮件过滤方法在特征选择方面所存在不足的分析,研究了如何在邮件特征空间中选择出对邮件分类最佳的特征采样点,从而减小邮件过滤方法在问题处理中的空间复杂度,以提高垃圾邮件识别的正确率。通过利用邮件样本自身在二分问题中的隶属度与特征点在邮件样本集中的权重,来定义特征采样点对邮件类别的区分程度,从而达到消除噪声特征点、提高邮件过滤性能的目的。采用博弈论建立邮件特征选择模型,选择出样本集中最佳特征子集,从而减少特征采样点的数量,使得被选出的特征点能够在较全面反映邮件内容信息的同时,也能提高垃圾邮件过滤方法的识别效率。通过在CCERT Data Sets of Chinese Emails(CDSCE)语料库上的实验表明,采用文中方法能够使邮件过滤性能得到显著提高。