基于文本挖掘的垃圾邮件过滤技术研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:winbourbit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网的普及,电子邮件作为一种高效、经济的现代通信技术手段,己成为互联网上最常用的应用之一。但电子邮件在给人们带来巨大便利的同时,也给人们带来了造成很大困扰垃圾邮件。大量无用甚至有害的信件在网络传播,不仅消耗了大量的网络资源,而且还严重威胁到用户信息的安全。因此如何有效地治理垃圾邮件问题是全世界共同面临的一道难题。现实世界中,知识不仅以传统的结构化数据形式出现,而更多的是以非结构化或半结构化的形式出现,因此文本挖掘技术应运而生。将文本挖掘技术应用于垃圾邮件过滤过程中,对于防止垃圾邮件骚扰、减少垃圾信息等具有重要的现实意义。本文首先介绍了垃圾邮件的发展历史、定义,分析了其危害性以及为解决垃圾邮件所带来的各种问题所采取的措施。进一步介绍了与电子邮件紧密相关的SMTP、POP3、IMAP、MIME协议。阐述了常用的垃圾邮件过滤技术,包括基于角色区分的、基于内容的、基于接入的及基于行为的等过滤技术,同时归纳了目前最新出现的过滤技术,比如发件人特征识别技术、信誉评分技术等。本文所做的主要工作如下:1.归纳总结了当前比较流行的垃圾邮件过滤的方法和手段。垃圾邮件发送者为了躲避各种过滤,不断变化更新欺骗的方法和手段,简单的过滤方法已经无法有效地过滤垃圾邮件,必须抓住当前垃圾邮件的主要特征,以进行有针对性的过滤。2.提出了一种基于判别模型的垃圾邮件过滤方法。在特征选择问题上,本文创新地引入了差分互信息的概念;在邮件分类过程中,本文对于特征项权值的更新采取了梯度下降搜索算法;并建立了垃圾邮件过滤的模型。实验证明,基于判别模型的过滤方法能收到很好的效果。3.提出了一种图像垃圾邮件文本区域特征的提取方法。针对彩色图像易受边缘干扰的特点,借助于Color Roberts算子以及形态学算法,设计了文本区域特征提取方案,通过实验证明,对于图像垃圾邮件的过滤取得了不错的效果;同时在分类算法的选择上引入了AHP来进行评价,提供了解决决策性问题的另一新鲜思路。
其他文献
帧率转换技术主要用来实现不同视频源帧率之间的转换,随着高清数字电视和多媒体系统的迅猛发展,如何提高视频源的帧率满足人们高质量的视觉享受,成为了人们研究的热点。常用
扫描仪作为一种图形图像输入设备在国内军事、测绘、建筑方面等特殊领域的数字化应用有着广泛的需求。随着用户对扫描仪色彩质量的要求越来越高,在现阶段,提高扫描仪的图像还原
近年来,P2P网络一直是工业界和学术界重点关注的对象。P2P网络结构作为P2P网络的基础,具有重要的研究意义。混合式P2P网络结构是目前研究的热点,其中群内超级节点选取、群的
随着网络技术的不断更新和发展,以及IPv4网络地址的不断耗尽,IPv6作为下一代网络的核心技术必将替代IPv4技术,但从IPv4网络过渡到IPv6网络不是在短时间内能完成的,它必将经历一个
海运物流是一种集装箱化的物流,具有集装箱化、标准化、全球一体化运输模式等特点,从为货主、货代、船东提供高效、便捷以及低成本订舱服务的理念出发,以实现整合海运物流行
似物性采样是提取一幅图像中可能成为任意目标的窗口,在目标检测与识别时,可显著减少目标的搜索窗口,相比滑动窗口而言,还可有效提升检测窗口的精度。近年来,在目标识别领域,
随着互联网等信息技术的发展,网络数据挖掘占据着越来越重要的地位,并成功应用于用户行为分析,文档分类,图像分类等领域。分类问题可以进一步分为单标签分类和多标签分类。分
随着无线宽带网络的日益发展,越来越多的移动视频终端被用于多媒体通信中。通常这些终端编码设备的处理能力和功耗等资源都十分有限,因此要求视频编码器简单易实现,且具有良
近年来,随着无线通信理论和技术的迅速发展,无线技术在全球的因特网结构中占据越来越重要的位置,移动主机和它们的无线通信链路将是未来因特网中一个主要的组成部分,基于有线
随着信息技术和网络技术的飞速发展以及越来越多的网络应用,网络上的各种资源剧增,网络安全问题显得日益重要,人们对访问控制的安全性要求也在不断提高。以身份证书管理为核心的