论文部分内容阅读
伴随着互联网的普及,电子邮件作为一种高效、经济的现代通信技术手段,己成为互联网上最常用的应用之一。但电子邮件在给人们带来巨大便利的同时,也给人们带来了造成很大困扰垃圾邮件。大量无用甚至有害的信件在网络传播,不仅消耗了大量的网络资源,而且还严重威胁到用户信息的安全。因此如何有效地治理垃圾邮件问题是全世界共同面临的一道难题。现实世界中,知识不仅以传统的结构化数据形式出现,而更多的是以非结构化或半结构化的形式出现,因此文本挖掘技术应运而生。将文本挖掘技术应用于垃圾邮件过滤过程中,对于防止垃圾邮件骚扰、减少垃圾信息等具有重要的现实意义。本文首先介绍了垃圾邮件的发展历史、定义,分析了其危害性以及为解决垃圾邮件所带来的各种问题所采取的措施。进一步介绍了与电子邮件紧密相关的SMTP、POP3、IMAP、MIME协议。阐述了常用的垃圾邮件过滤技术,包括基于角色区分的、基于内容的、基于接入的及基于行为的等过滤技术,同时归纳了目前最新出现的过滤技术,比如发件人特征识别技术、信誉评分技术等。本文所做的主要工作如下:1.归纳总结了当前比较流行的垃圾邮件过滤的方法和手段。垃圾邮件发送者为了躲避各种过滤,不断变化更新欺骗的方法和手段,简单的过滤方法已经无法有效地过滤垃圾邮件,必须抓住当前垃圾邮件的主要特征,以进行有针对性的过滤。2.提出了一种基于判别模型的垃圾邮件过滤方法。在特征选择问题上,本文创新地引入了差分互信息的概念;在邮件分类过程中,本文对于特征项权值的更新采取了梯度下降搜索算法;并建立了垃圾邮件过滤的模型。实验证明,基于判别模型的过滤方法能收到很好的效果。3.提出了一种图像垃圾邮件文本区域特征的提取方法。针对彩色图像易受边缘干扰的特点,借助于Color Roberts算子以及形态学算法,设计了文本区域特征提取方案,通过实验证明,对于图像垃圾邮件的过滤取得了不错的效果;同时在分类算法的选择上引入了AHP来进行评价,提供了解决决策性问题的另一新鲜思路。