基于灰名单和内容过滤的反垃圾邮件技术研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:hyperpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,垃圾邮件成为互联网的主要危害之一,垃圾邮件过滤技术也逐渐成为备受关注的研究领域。在与反垃圾邮件技术对抗中,垃圾邮件发送的手段和技术也不断的更新,给对方带来更多的挑战。目前垃圾邮件过滤的研究主要集中在对邮件文本采用机器学习的方法进行二元分类,虽然取得了一定的效果但是工作效率以及查准率和查全率都有待提高。这就需要多种多层次的过滤技术综合,来对垃圾邮件进行过滤。本文的主要工作包括以下方面:   1.研究了灰名单过滤技术,并提出了改进的思想。灰名单过滤技术是在SMTP协议的通信阶段对垃圾邮件进行拦截的。它的优点很明显,就是把反垃圾邮件提前到邮件文本接收前。相比基于文本内容的过滤技术,它是很高效的。缺点是容易造成正常邮件发送的延迟,并且垃圾邮件拦截率也不高。本文把灰名单分为深灰名单和浅灰名单,可以缓解正常邮件的延迟转发问题。对于拦截率低的缺点,本文将灰名单和基于内容过滤的方法相结合来克服。   2.研究了基于文本内容的过滤技术,主要包括规则过滤和基于文本分类的过滤。规则过滤一般是对邮件标题和正文进行规则匹配来过滤,优点是简单易用,查准率高。可是很多邮件的标题并不和正文相关,甚至是随意的字符,由于大多的规则都是针对标题的,匹配不到导致查全率的降低。而本文设计了一个综合的反垃圾邮件模型,在邮件接收前采用灰名单过滤,在接收后对标题和正文采用规则过滤判定,同时对正文采用多分类器投票判定。最后由规则过滤的评分和多分类器投票的评分来综合判断一封邮件是否为垃圾邮件。该模型使灰名单过滤、规则过滤和基于文本分类的过滤技术有机结合起来,同时又使用了四种算法。实验表明,这种过滤方案能够取得很好的过滤效果。
其他文献
DNA计算的概念由Adleman博士于1994年首先提出,同:时第一次成功使用DNA计算方法解决了7个节点的汉密尔顿路径问题。此后,多种DNA计算模型被提出并用来解决不同的NP完全问题,DN
随着我国社会信息化工作的全面开展,企业、政府单位陆续开发了大量的信息管理系统,但这些信息系统是在不同时期、根据当时不同需求而单独设计、开发出来的,各自面对单独的业
随着信息技术的突飞猛进,产生了大量的视频文档。视频压缩、视频编解码、计算机海量存储和信息高速传输等技术的发展解决了日益膨胀的视频信息传输和存储问题,如何对海量的视
B2C电子商务企业的销售预测直接影响到企业的采购和备库,从而对提高企业客户服务水平、提高企业的市场竞争力发挥举足轻重的作用。B2C电子商务企业和传统零售企业相比,其商品具
随着互联网技术的迅速发展,可扩展标记语言XML得到了极大的进步,已经成为Web上信息交换与数据处理的标准。由于XML数据具有描述能力强、结构信息丰富、语义明确、可扩展性好
作为一种当今流行的网络结构,P2P技术有别于传统的“客户端/服务器”模式。P2P网络当中的每一个节点都具有平等的地位,每个节点在享用其他节点提供的服务的同时也在充当服务
随着军队机械化和信息化建设的不断深入,多种新式车辆列入部队装备序列,对部队正规化现代化专业化的管理提出了更高的要求,需要运用高科技手段进行有效监管。军车牌照是军车
近年来,基于人工智能技术的问题求解、自动证明、类人答题等应用已经成为研究的热点,并不断取得新的突破。自然语言处理是人工智能研究的一个重要内容,其研究方法主要包括基
随着网络应用技术的飞速发展,流媒体技术也已经在生活中的各个领域普及起来,如:远程教育、网络视频会议、视频点播等,因此对于流媒体技术的研究也越来越受到广大学者的重视。
粗糙集理论是一种处理分析不确定或者模糊知识的数学工具,已经在模式识别、专家系统、故障诊断和决策分析等方面有了较为成功的应用。由于数据库中的数据是动态变化的,数据库