论文部分内容阅读
Intemet的发展给人们带来了全新的网络体验,其中的电子邮件技术也成为一种快捷、经济的现代通信手段。然而电子邮件在为人们提供便利的通信手段的同时,也日益成为广告、病毒、恶意程序、不良信息等内容传播的重要载体,给人们的生活带来了诸多不便,同时给网络的安全带来极坏的影响。因此,解决好垃圾邮件问题具有重要的现实意义。在多种反垃圾邮件的技术中,垃圾邮件过滤技术以其方便、可引入技术种类丰富成为反垃圾邮件研究领域的一个热点方向。现有的垃圾邮件过滤技术主要有基于IP地址的垃圾邮件过滤、基于邮件关键字的过滤以及基于邮件内容的过滤,但这些过滤方法均只单纯考虑了邮件的部分信息而忽视了其它的有用部分。本文在对以上的过滤方法进行分析之后,综合考虑各种过滤方式的优点,提出将邮件地址、关键字、邮件内容等因素同时考虑进行垃圾邮件过滤。本文所做的主要工作和创新点如下:1、对电子邮件的格式进行了较为细致的分析,并在此基础上具体讨论了VC环境下如何实现对邮件的接收和访问;2、本文对以往基于内容的垃圾邮件过滤方法进行了改进,将内容之外的其它各类邮件要素,如来源地址、主题、是否具有附件以及附件类型等,均作为邮件的特征属性供分类器学习。试验结果表明,这些属性对于邮件类别的确定具有重要的影响;3、对邮件内容进行处理时,为了减少特征向量的维数,本文使用文本分类中常见的几种特征降维方法(文本频度、x~2统计量方法、互信息方法、信息增益方法、期望交叉熵方法、文本证据权方法)分别对垃圾邮件样本进行了测试。实验结果表明,x~2统计量方法和期望交叉熵方法对邮件分类最为有效,文本频度方法和文本证据权方法稍差,而互信息方法和信息增益的方法效果最差;4、获得有效邮件特征向量后,必须使用合适的分类器进行分类。本文首次将张铃、张钹教授提出的前向人工神经网络基础上的覆盖算法应用到垃圾邮件过滤中。本文对使用覆盖算法和支持向量机方法作为分类器进行了对比,实验表明覆盖算法作为一种优秀的分类器,可以有效的进行垃圾邮件过滤,具有较高的正确率;5、在垃圾邮件的过滤中存在一定的风险性,一般说来,收件人宁愿多接收到一些垃圾邮件也不希望正常邮件被错判为垃圾邮件。本文从风险角度分析了覆盖算法对测试样本进行分类时的过程,根据分析结果提出对其“拒识”样本的处理过程进行改进,通过改变非垃圾邮件所属覆盖的影响范围,降低了垃圾邮件过滤时的风险;6、由于各种模式识别的方法均存在自身的优缺点,本文根据少数服从多数的朴素思想,对基于多种模式识别方法的投票式垃圾邮件过滤的可行性进行了探讨。本文在垃圾邮件过滤方面完成了一定的工作,但还存在一些不足,今后可以在以下方面继续研究:1、本文的研究对象是针对中文垃圾邮件,今后可以对非中文垃圾邮件进行研究,将非中文垃圾邮件也纳入研究范围中;2、本文研究的邮件是传统意义上的文字形式邮件,但随着电子邮件技术的发展,现在已经存在并将会有更多的邮件形式,如何从多种邮件形式中获得所需的过滤邮件信息,是下一步需要研究的内容;3、多模式识别方法下的垃圾邮件过滤可以进一步深入研究。