垃圾邮件过滤技术的研究

来源 :大连海事大学 | 被引量 : 9次 | 上传用户:qxd986319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。 本文深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。文章重点分析了当前使用最广泛的Na(?)ve Bayes算法,指出其在实际应用中的不足,并采用N-gram理论对该算法进行了改进。同时,针对Na(?)ve Bayes算法性能受邮件特征影响这一特点,本文提出了一个基于结构特征的双层过滤模型。实验证明,改进后的Na(?)ve Bayes算法应用于双层过滤模型之后,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降。文章最后综合各种过滤技术,设计并描述了一个客户端垃圾邮件过滤系统的完整框架。
其他文献
聋人在获取信息,尤其是实时性极强的新闻类信息时,存在着很大障碍。如何使用计算机技术帮助聋人提高他们对信息的接收能力成为一个既有极高科研价值,又有极强实际意义的课题
数据仓库系统是随着分析型应用的兴起而发展而来,旨在帮助企业充分利用宝贵的信息资源,做出正确的决策。在数据仓库系统的建设过程中,ETL(Extract Transform Load)是整个数据仓
在互联网获得巨大发展的今天,搜索引擎提供的互联网信息导航服务已经成为非常重要的网络服务,搜索引擎也已成为互联网用户在较短的时间内从在信息量浩如烟海的互联网上搜索、获
粗糙集和模糊集是处理数据的两种不同的数学方法。粗糙集理论是波兰数学家Z.Pawlak于1982年提出来的两种处理不确定和不精确数据的理论,是通过等价关系来研究对象之间的不可
本文主要介绍一种基于嵌入式技术的多媒体播放器的系统设计方案。该系统主要是通过在嵌入式芯片上加载操作系统,同时扩充必要的接口,在操作系统的支持下,开发多媒体播放器。随着
随着城市环境物联网建设的不断深入,现有环境监测设备价格昂贵、功能单一和智能度不高等缺点逐步暴露出来。为了提高城市环境信息监测的智能化水平和自动化水平,本文研究利用
构件库是支持大量构件的描述、存储、管理和检索的构件复用基础设施。随着各类机构建立的构件库逐渐增加,关于分布式构件库的研究日趋增多。这种分布式构件库通过协调机制将
近年来,在线社交网络和基于位置的服务迅速兴起,以Foursquare为代表的基于位置的社交网络(Location Based Social Network,LBSN)平台取得了巨大的成功,并连接了用户的线上线下行为
随着软件规模和复杂度的不断增大,传统的软件开发模式面临着巨大的挑战,出现了新一轮的“软件危机”,解决这个问题行之有效的途径之一就是软件复用。其中,如何开发复用的构件,如何
随着电信企业竞争日益激烈,快速响应市场需求,建立有效的业务流程管理十分重要。目前电信领域中普遍存在流程自动化以及系统间集成等困难难题,本文在分析了NGOSS(下一代运营支撑