基于内容的垃圾邮件过滤技术研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:majing1619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着Internet的普及,电子邮件以其快捷、方便、低成本的特点已成为互联网上最重要、最普及的应用。但是随之而来的垃圾邮件也越来越泛滥,侵占了有限的存储、计算和网络资源,耗费了用户大量的处理时间,影响和干扰了用户的正常工作,生活和学习。如何有效地治理垃圾邮件问题是全世界共同面临的一道难题,也是互联网上目前亟待解决的问题。 目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外还有一种就是从电子邮件的文本内容入手,使用文本分类算法,对邮件进行分类。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树等。基于概率的朴素贝叶斯算法具有方法简单、运算速度快、分类精确度高等优点,在文本分类中得到了广泛的应用。由于在邮件过滤过程中,合法邮件被误判为垃圾邮件将可能给用户带来据大的损失,因此在邮件过滤中就要采取适当的措施以减小损失。在目前的各种反垃圾邮件技术中,一种基于概率统计的贝叶斯过滤技术以其较好的智能性、适应性和有效性而越来越多的被深入研究和广泛采用。 本文从技术角度出发,在全面系统学习和总结国内外反垃圾邮件领域的最新成果的基础上,深入细致地研究了反垃圾邮件技术,主要做了以下工作: 1)分析垃圾邮件的泛滥原因、危害及垃圾邮件过滤的研究现状,将文本分类方法应用到垃圾邮件过滤中。 2)分析贝叶斯分类方法的现状,总结了贝叶斯过滤算法的基本步骤,给出了一个贝叶斯过滤器的设计方案并设计了贝叶斯算法的模型以及在Ling-Spam语料上的试验方案,给出了贝叶斯算法的程序实现。 3)设计了一个客户端垃圾邮件过滤系统,实现了邮件的收发及垃圾邮件的过滤,实验验证该系统是有效的。
其他文献
学位
学位
学位
学位
学位
报纸
期刊
期刊
学位
学位