论文部分内容阅读
随着互联网技术的发展,电子邮件系统逐步取代了传统的邮件通信系统,成为人们日常生活中不可或缺的一个部分。但是,一些人受到金钱利益驱使,通过电子邮件大量散布恶意信息。在这些信息中,除了有常见的商业广告,还存在一些反动、诈骗等信息。这些信息的传播,不仅影响人们的日常生活,而且威胁社会的安全稳定。本文通过对目前常见的垃圾邮件过滤技术进行分析与总结,选择基于内容的垃圾邮件过滤方法作为本文研究的重点。在此基础上,针对传统垃圾邮件过滤技术在垃圾邮件检测过程中所存在一些薄弱环节,提出一些改进方法。本文的研究工作主要分为四个部分。(1)对基于内容的垃圾邮件过滤技术进行综述本文从特征表示、降维方法、分类方法和评估标准四个方面对基于内容的垃圾邮件过滤技术进行综述。对各方面所采用的方法和工具进行了回顾和梳理。(2)提出基于间隔式滑动窗口的中文分词法文本分词是垃圾邮件过滤流程中的一个重要环节。为了躲避垃圾邮件过滤技术的检测,垃圾邮件制造者通过在原始邮件文本中添加异常字符,隐藏文本中的敏感词,降低分词效率。针对这种情况,本文提出一种间隔式滑动窗口分词法。将间隔式滑动窗口与词典分词方法结合起来,通过间隔式滑动窗口过滤文本中存在的异常字符,再将从文本中划分出来的字符串与分词词典相匹配,提取其中有效的词条,同时也增大文本信息的采集量。(3)提出基于特征贡献比的互信息特征选择方法随着数据量的不断增大,特征降维成为文本分类研究中不可缺少的一环。目前常见的特征选择方法往往针对的是多分类问题,未能针对二分类问题进行特殊化的处理。因此,本文对传统的互信息特征选择方法进行了改进。除了针对其缺少词频信息,引入词频因子外,还针对二分类问题,引入了特征贡献比的概念。实验证明,采用基于特征贡献比的互信息特征选择方法得到的特征子集,大大提高了垃圾邮件的检测效果。(4)提出L1范数正则化ROC-SVM算法近几年,不均衡问题的研究成了热点。由于从实际生活中采集到的数据中不同类别的样本数量往往不等,给分类带来了很多的困扰。特别是对少数类样本的检测,识别效果很差。针对这种情况,本文在ROC-SVM算法基础上,引入了 L范数正则化。在最小化对不平衡免疫的AUC值的基础上,通过L1范数正则化,减轻文本空间模型的稀疏性给分类器带来的不利影响。同时,也大大减少了测试所需要的时间。