关于一种针对头文件的贝叶斯垃圾邮件过滤器的研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:zhghliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:邮件作为当今社交、商业往来最重要的手段之一,被广大公司及个人广泛使用,垃圾邮件问题也就随之而来。很多机构都在考虑应对垃圾邮件的方法,其中最为有代表性的为贝叶斯过滤器。它通过对文本中出现的单词进行分析以及再学习的方式来判定邮件的可靠性。但是因为同样的单词对每个人的意义不同,很难做到精确的判断。因此,本研究着眼于邮件头文件,通过贝叶斯过滤器对三种头文件的分析来进行垃圾邮件判定,从而提高垃圾邮件的检出率。
  关键词:垃圾邮件;贝叶斯过滤器;头文件;数据库;
  中图分类号:TP393.098
  近几年随着网络的普及,电子邮件也随之成为非常重要的联络手段。邮件的安全性也成为了关注焦点,带有病毒和附件的垃圾邮件的数量更是成倍的增长。
  为了防止垃圾邮件带来的侵害,很多机构都在研讨防止垃圾邮件的对策。目前最常被用于防止垃圾邮件的方式是贝叶斯过滤器[1],它是一种基于贝叶斯理论的再学习型过滤器,对个别敏感词语进行学习,将其出现的概率在数据库中更新,从而通过单词的概率来推出整个邮件的垃圾概率[2]。但是这种方法的问题在于同一个单词对不同人的意义是不一样的,所以很难做到准确的判断,同时它也不适合有动画及附件的垃圾邮件。鉴于此,本研究将邮件的头文件作为着手点,通过对3种不同的头文件的分析结合贝叶斯过滤器的方法来判定一封邮件为垃圾邮件的概率,目的是能够改善垃圾邮件的判定精度。
  1 垃圾邮件对策
  1.1 通信部分的判别
  (1)黑名单型:将垃圾邮件送信方的IP地址或者指定的IP地址加入到黑名单中,这样再从已经登陆到黑名单中的地址发来的邮件都会被直接锁定[3];(2)白名单型:只接受那些已经承认不是垃圾邮件的地址或者送信人。将其登录到特定的名单中,不在名单范围内的其他邮件全部被系统锁定;(3)灰名单型:将收到的邮件无论邮件是不是垃圾邮件一律全部回绝,当同样的邮件再一次发送来的时候再在将其接受[4];(4)混合式:混合式判定垃圾邮件的工作流程,首先检查这封垃圾邮件的来源地址是否被系统登录,如果登陆到黑名单或者白名单中,该邮件将会被直接处理,两边都未登陆的邮件根据其他过滤器的判定来判别这封邮件是否是垃圾邮件[5]。
  1.2 根据邮件内容判别
  (1)关键字型:将垃圾邮件中经常出现的词语总结出,将带有这些词语的邮件全部拒绝。这种方法的误判断率较高,判定率低;(2)空间内容型:将已经判定为垃圾邮件中的特征词语抽出学习,用生成指标的概率来判断。最有代表性的是贝叶斯过滤器[6]。
  1.3 贝叶斯过滤器
  贝叶斯过滤器是应用贝叶斯分类器将对象数据分析、学习从而将他们分类的一种过滤器[7]。它将已经判定为垃圾邮件的词语再学习,把该词语出现的概率更新到数据库中,因此学习它的判定精度就会越高。
  2 提案方法
  2.1 头文件
  电子邮件主要由2部分构成。一部分是记载邮件内容的文本,另一部分是记录邮件信息的头文件。一般的邮件只会表示部分头文件信息。例如:Data,From,Subject等。
  2.2 提案头文件分析
  本研究主要针对三个具有代表性的头文件进行分析,这三个头文件为X-Mailer、Received、Content-Transfer-Encoding:(1)X-Mailer头文件:X-Mailer头文件表示邮件送信时使用的软件,但不是必须表示出来;(2)Content-Transfer-Encoding头文件:这是表示邮件编码长度的头文件,在SMTP协议中指定7bit为邮件的编码长度;(3)Received头文件:这是表示邮件服务器信息的头文件,一封邮件每通过一个服务器时就自动附加1,也就是说当一个邮件通过3个服务器时Received数就是3.
  2.3 头文件调查结果
  (1)Received数的调查结果。此次调查收集了3070封垃圾邮件和518封非垃圾邮件,对特征头文件的调查会以这些为参照。经调查当Received数是1时垃圾邮件占64%,非垃圾邮件占15%,当Received数是2时垃圾邮件占32%,非垃圾邮件占76%;(2)X-Mailer头文件调查结果。利用Microsoft Outlook Express软件发送的垃圾邮件占其总数的51.8%,而非垃圾邮件只占其总数的9.2%。没有利用邮件发送软件的垃圾邮件占其总数的26.8%,非垃圾邮件占其总数27.7%。而利用melcast.com发送的邮件中非垃圾邮件占其总数的61%;(3)Content-Transfer-Encoding头文件调查结果。编码长为7bit的垃圾邮件占其总数的84%,非垃圾邮件占其总数的93.6%,编码长度为quoted-printable和8bit的垃圾邮件占其总数的15%而非垃圾邮件只占其总数的1.9%。
  2.4 数据库的做成
  将调查结果分别做成相对应的数据库,通过制作好的程序将特征头文件抽出然后根据贝叶斯定理通过概率计算专用程序将计算的结果做成该头文件的数据库用来参照。该数据库记载的是判断一封邮件为垃圾邮件的概率。
  3 实验与结果
  本次实验将新搜集到的1705封垃圾邮件和97封非垃圾邮件作为判定对象参照现有的数据库进行判定。判定后将这些邮件再学习来验证这种贝叶斯垃圾邮件过滤器的可靠性。
  3.1 头文件数据实验结果
  (1)Received数单独判定时:检出率=0.694、误检出率=0.536、看错率=0.306、综合精度=0.681;(2)X-Mailer头文件单独判定时:检出率=1、误检出率=1、看错率=0、综合精度=0.946;(3)Content-Transfer-Encoding頭文件单独判定时:检出率=0.887、误检出率=0.979、看错率=0.113、综合精度=0.841。三个头文件同时利用判定时:检出率=0.945、误检出率=0.69、看错率=0.055、综合精度=0.911。
  3.2 实验数据再学习
  由于实验数据有限,垃圾邮件的数量是非垃圾邮件数量的17倍,所以本次实验将数据比例调整到两边的数量接近1:1利用贝叶斯过滤器的特性将试验数据追加到原始数据中再学习形成新的数据库。再学习后的数据库有垃圾邮件4775封,非垃圾邮件615封。检出率的比较结果为实验数据=0.945,再学习数据=0.969。从综合精度上来看实验数据的精度=0.911,再学习后的精度=0.925。
  4 结束语
  从实验结果上可以看出同时利用3个头文件对垃圾邮件的判定精度要高于单独使用头文件对垃圾邮件判定时的精度,另外看出将试验数据再学习后形成的新数据的判定精度也比原始数据的判定精度高,这也符合贝叶斯过滤器越学习判定精度越高的特点。
  从这些结果上看利用电子邮件的头文件信息作为判定对象通过贝叶斯过滤器来对垃圾邮件的判定的对策具有一定的有效性。判定精度也会随着再学习的数量的增多而得到进一步的提高。
  参考文献:
  [1]渡边綾太.垃圾邮件教科书[M].日本:数据小屋株式会社,2006.
  [2]森健人.关于利用贝叶斯过滤器来检测头文件信息的研究[D].岐阜大学,2008.
  [3]松下隆史,村山公保,荒井透.精通TCP/IP入门(第3版)[M].日本:欧姆社株式会社,2002.
  [4]陈勇,李卓桓.反垃圾邮件完全手册[M].北京:清华大学出版社,1998.
  [5]曹麒麟,张千里.垃圾邮件与发垃圾邮件技术[M].北京:人民邮电出版社,2003.
  [6]李学志.如何防范垃圾邮件[J].金融电子化,2003(01).
  [7]张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(04).
  作者简介:甘戈(1984-),辽宁西丰人,在读研究生,主要研究方向:计算机技术。
  作者单位:中国科学院大学 计算机技术,沈阳 110168;沈阳新松机器人自动化股份有限公司,沈阳 100168;中国水利水电第六工程局有限公司,沈阳 110179;中国医科大学 基础医学院,沈阳 110013
其他文献
根据数学教育教学中存在的问题,阐述了如何激发学生学习数学的兴趣,运用多层次,多元化的数学知识向学生展示数学的无究魅力,让学生在数学的海洋中体验到数学美和学习数学的乐趣。
80 年代提出的信息技术生产率矛盾问题已得到广泛的关注,信息技术对生产率可产生直接和间接作用。分析了矛盾形成的主要原因,给出了生产率检测模型,提出注重研究利用信息技术提高
高校招生改革是高校各项工作的首要内容,要把高校招生作为扩大内需,刺激经济增长的重要举措.扩招与择校是对传统招生制度的重要改革,但也存在一些政策、措施方面的问题.这就
随着科学技术的不断发展,计算机技术以及通信技术都得到了空前的进步,计算机网络管理融合了这两种技术,目的就是为了更加有效的提升网络效率,并使其在广阔的应用领域发挥更大
【正】1952年,赵尔陆由华中军区参谋长出任共和国第二机械工业部首任部长。从此,我国国防工业现代化进程便与赵尔陆的名字紧密相连。他深入实
摘 要:近些年来,随着无线网络技术的进一步发展和应用,由于其灵活性强、可移动、可扩展等优势,因而已经在人们的生产及生活中得到了十分广泛的应用,因此,有关无线网络技术方面的研究也越来越多,应用前景十分广阔。本文从无线网络技术的优势分析出发,针对无线网络技术的有关内容及其应用模式进行了研究,对于进一步推动无线网络技术的发展及应用具有一定的参考价值。  关键词:无线网络技术;优势;应用模式  中图分类号
今年以来,为深入贯彻落实党的十七大和十七届四中、五中全会精神,进一步深化拓展学习实践科学发展观活动成果,根据省、市创先争优活动安排部署,武安市工商局局以邓小平理论、“三
以个案分析的方法,对北魏时期关东大族"旁支"的形成、发展及其在北魏末年战乱中所起的作用等问题进行了多方面的探讨,进而揭示出关东世家大族宗族内部分化的特点,以及大族旁
摘 要:文本相似度算法研究一直是文本挖掘领域非常重要的算法,指采用一定的策略比较两个文本之间的相似程度,目前文本相似度算法已经在文本分类、文本聚类、自然语言处理等多个领域崭露头角。本文主要就语义角度出发对文本之间相似度进行界定。  关键词:文本挖掘;文本相似度;语义  中图分类号:TP311.13  文本之间相似度的度量一直是是文本挖掘领域研究的热点问题,优良的文本相似度算法可以更加精准的实现对文
【正】河间市共辖20个乡镇,615个行政村,总人口79.1万,已婚育龄妇女16.79万人。近年来,在河间市委、市政府的领导下,以宣传党的"十七大"和中央《决定》精神为主线,求真务实,