论文部分内容阅读
摘 要:邮件作为当今社交、商业往来最重要的手段之一,被广大公司及个人广泛使用,垃圾邮件问题也就随之而来。很多机构都在考虑应对垃圾邮件的方法,其中最为有代表性的为贝叶斯过滤器。它通过对文本中出现的单词进行分析以及再学习的方式来判定邮件的可靠性。但是因为同样的单词对每个人的意义不同,很难做到精确的判断。因此,本研究着眼于邮件头文件,通过贝叶斯过滤器对三种头文件的分析来进行垃圾邮件判定,从而提高垃圾邮件的检出率。
关键词:垃圾邮件;贝叶斯过滤器;头文件;数据库;
中图分类号:TP393.098
近几年随着网络的普及,电子邮件也随之成为非常重要的联络手段。邮件的安全性也成为了关注焦点,带有病毒和附件的垃圾邮件的数量更是成倍的增长。
为了防止垃圾邮件带来的侵害,很多机构都在研讨防止垃圾邮件的对策。目前最常被用于防止垃圾邮件的方式是贝叶斯过滤器[1],它是一种基于贝叶斯理论的再学习型过滤器,对个别敏感词语进行学习,将其出现的概率在数据库中更新,从而通过单词的概率来推出整个邮件的垃圾概率[2]。但是这种方法的问题在于同一个单词对不同人的意义是不一样的,所以很难做到准确的判断,同时它也不适合有动画及附件的垃圾邮件。鉴于此,本研究将邮件的头文件作为着手点,通过对3种不同的头文件的分析结合贝叶斯过滤器的方法来判定一封邮件为垃圾邮件的概率,目的是能够改善垃圾邮件的判定精度。
1 垃圾邮件对策
1.1 通信部分的判别
(1)黑名单型:将垃圾邮件送信方的IP地址或者指定的IP地址加入到黑名单中,这样再从已经登陆到黑名单中的地址发来的邮件都会被直接锁定[3];(2)白名单型:只接受那些已经承认不是垃圾邮件的地址或者送信人。将其登录到特定的名单中,不在名单范围内的其他邮件全部被系统锁定;(3)灰名单型:将收到的邮件无论邮件是不是垃圾邮件一律全部回绝,当同样的邮件再一次发送来的时候再在将其接受[4];(4)混合式:混合式判定垃圾邮件的工作流程,首先检查这封垃圾邮件的来源地址是否被系统登录,如果登陆到黑名单或者白名单中,该邮件将会被直接处理,两边都未登陆的邮件根据其他过滤器的判定来判别这封邮件是否是垃圾邮件[5]。
1.2 根据邮件内容判别
(1)关键字型:将垃圾邮件中经常出现的词语总结出,将带有这些词语的邮件全部拒绝。这种方法的误判断率较高,判定率低;(2)空间内容型:将已经判定为垃圾邮件中的特征词语抽出学习,用生成指标的概率来判断。最有代表性的是贝叶斯过滤器[6]。
1.3 贝叶斯过滤器
贝叶斯过滤器是应用贝叶斯分类器将对象数据分析、学习从而将他们分类的一种过滤器[7]。它将已经判定为垃圾邮件的词语再学习,把该词语出现的概率更新到数据库中,因此学习它的判定精度就会越高。
2 提案方法
2.1 头文件
电子邮件主要由2部分构成。一部分是记载邮件内容的文本,另一部分是记录邮件信息的头文件。一般的邮件只会表示部分头文件信息。例如:Data,From,Subject等。
2.2 提案头文件分析
本研究主要针对三个具有代表性的头文件进行分析,这三个头文件为X-Mailer、Received、Content-Transfer-Encoding:(1)X-Mailer头文件:X-Mailer头文件表示邮件送信时使用的软件,但不是必须表示出来;(2)Content-Transfer-Encoding头文件:这是表示邮件编码长度的头文件,在SMTP协议中指定7bit为邮件的编码长度;(3)Received头文件:这是表示邮件服务器信息的头文件,一封邮件每通过一个服务器时就自动附加1,也就是说当一个邮件通过3个服务器时Received数就是3.
2.3 头文件调查结果
(1)Received数的调查结果。此次调查收集了3070封垃圾邮件和518封非垃圾邮件,对特征头文件的调查会以这些为参照。经调查当Received数是1时垃圾邮件占64%,非垃圾邮件占15%,当Received数是2时垃圾邮件占32%,非垃圾邮件占76%;(2)X-Mailer头文件调查结果。利用Microsoft Outlook Express软件发送的垃圾邮件占其总数的51.8%,而非垃圾邮件只占其总数的9.2%。没有利用邮件发送软件的垃圾邮件占其总数的26.8%,非垃圾邮件占其总数27.7%。而利用melcast.com发送的邮件中非垃圾邮件占其总数的61%;(3)Content-Transfer-Encoding头文件调查结果。编码长为7bit的垃圾邮件占其总数的84%,非垃圾邮件占其总数的93.6%,编码长度为quoted-printable和8bit的垃圾邮件占其总数的15%而非垃圾邮件只占其总数的1.9%。
2.4 数据库的做成
将调查结果分别做成相对应的数据库,通过制作好的程序将特征头文件抽出然后根据贝叶斯定理通过概率计算专用程序将计算的结果做成该头文件的数据库用来参照。该数据库记载的是判断一封邮件为垃圾邮件的概率。
3 实验与结果
本次实验将新搜集到的1705封垃圾邮件和97封非垃圾邮件作为判定对象参照现有的数据库进行判定。判定后将这些邮件再学习来验证这种贝叶斯垃圾邮件过滤器的可靠性。
3.1 头文件数据实验结果
(1)Received数单独判定时:检出率=0.694、误检出率=0.536、看错率=0.306、综合精度=0.681;(2)X-Mailer头文件单独判定时:检出率=1、误检出率=1、看错率=0、综合精度=0.946;(3)Content-Transfer-Encoding頭文件单独判定时:检出率=0.887、误检出率=0.979、看错率=0.113、综合精度=0.841。三个头文件同时利用判定时:检出率=0.945、误检出率=0.69、看错率=0.055、综合精度=0.911。
3.2 实验数据再学习
由于实验数据有限,垃圾邮件的数量是非垃圾邮件数量的17倍,所以本次实验将数据比例调整到两边的数量接近1:1利用贝叶斯过滤器的特性将试验数据追加到原始数据中再学习形成新的数据库。再学习后的数据库有垃圾邮件4775封,非垃圾邮件615封。检出率的比较结果为实验数据=0.945,再学习数据=0.969。从综合精度上来看实验数据的精度=0.911,再学习后的精度=0.925。
4 结束语
从实验结果上可以看出同时利用3个头文件对垃圾邮件的判定精度要高于单独使用头文件对垃圾邮件判定时的精度,另外看出将试验数据再学习后形成的新数据的判定精度也比原始数据的判定精度高,这也符合贝叶斯过滤器越学习判定精度越高的特点。
从这些结果上看利用电子邮件的头文件信息作为判定对象通过贝叶斯过滤器来对垃圾邮件的判定的对策具有一定的有效性。判定精度也会随着再学习的数量的增多而得到进一步的提高。
参考文献:
[1]渡边綾太.垃圾邮件教科书[M].日本:数据小屋株式会社,2006.
[2]森健人.关于利用贝叶斯过滤器来检测头文件信息的研究[D].岐阜大学,2008.
[3]松下隆史,村山公保,荒井透.精通TCP/IP入门(第3版)[M].日本:欧姆社株式会社,2002.
[4]陈勇,李卓桓.反垃圾邮件完全手册[M].北京:清华大学出版社,1998.
[5]曹麒麟,张千里.垃圾邮件与发垃圾邮件技术[M].北京:人民邮电出版社,2003.
[6]李学志.如何防范垃圾邮件[J].金融电子化,2003(01).
[7]张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(04).
作者简介:甘戈(1984-),辽宁西丰人,在读研究生,主要研究方向:计算机技术。
作者单位:中国科学院大学 计算机技术,沈阳 110168;沈阳新松机器人自动化股份有限公司,沈阳 100168;中国水利水电第六工程局有限公司,沈阳 110179;中国医科大学 基础医学院,沈阳 110013
关键词:垃圾邮件;贝叶斯过滤器;头文件;数据库;
中图分类号:TP393.098
近几年随着网络的普及,电子邮件也随之成为非常重要的联络手段。邮件的安全性也成为了关注焦点,带有病毒和附件的垃圾邮件的数量更是成倍的增长。
为了防止垃圾邮件带来的侵害,很多机构都在研讨防止垃圾邮件的对策。目前最常被用于防止垃圾邮件的方式是贝叶斯过滤器[1],它是一种基于贝叶斯理论的再学习型过滤器,对个别敏感词语进行学习,将其出现的概率在数据库中更新,从而通过单词的概率来推出整个邮件的垃圾概率[2]。但是这种方法的问题在于同一个单词对不同人的意义是不一样的,所以很难做到准确的判断,同时它也不适合有动画及附件的垃圾邮件。鉴于此,本研究将邮件的头文件作为着手点,通过对3种不同的头文件的分析结合贝叶斯过滤器的方法来判定一封邮件为垃圾邮件的概率,目的是能够改善垃圾邮件的判定精度。
1 垃圾邮件对策
1.1 通信部分的判别
(1)黑名单型:将垃圾邮件送信方的IP地址或者指定的IP地址加入到黑名单中,这样再从已经登陆到黑名单中的地址发来的邮件都会被直接锁定[3];(2)白名单型:只接受那些已经承认不是垃圾邮件的地址或者送信人。将其登录到特定的名单中,不在名单范围内的其他邮件全部被系统锁定;(3)灰名单型:将收到的邮件无论邮件是不是垃圾邮件一律全部回绝,当同样的邮件再一次发送来的时候再在将其接受[4];(4)混合式:混合式判定垃圾邮件的工作流程,首先检查这封垃圾邮件的来源地址是否被系统登录,如果登陆到黑名单或者白名单中,该邮件将会被直接处理,两边都未登陆的邮件根据其他过滤器的判定来判别这封邮件是否是垃圾邮件[5]。
1.2 根据邮件内容判别
(1)关键字型:将垃圾邮件中经常出现的词语总结出,将带有这些词语的邮件全部拒绝。这种方法的误判断率较高,判定率低;(2)空间内容型:将已经判定为垃圾邮件中的特征词语抽出学习,用生成指标的概率来判断。最有代表性的是贝叶斯过滤器[6]。
1.3 贝叶斯过滤器
贝叶斯过滤器是应用贝叶斯分类器将对象数据分析、学习从而将他们分类的一种过滤器[7]。它将已经判定为垃圾邮件的词语再学习,把该词语出现的概率更新到数据库中,因此学习它的判定精度就会越高。
2 提案方法
2.1 头文件
电子邮件主要由2部分构成。一部分是记载邮件内容的文本,另一部分是记录邮件信息的头文件。一般的邮件只会表示部分头文件信息。例如:Data,From,Subject等。
2.2 提案头文件分析
本研究主要针对三个具有代表性的头文件进行分析,这三个头文件为X-Mailer、Received、Content-Transfer-Encoding:(1)X-Mailer头文件:X-Mailer头文件表示邮件送信时使用的软件,但不是必须表示出来;(2)Content-Transfer-Encoding头文件:这是表示邮件编码长度的头文件,在SMTP协议中指定7bit为邮件的编码长度;(3)Received头文件:这是表示邮件服务器信息的头文件,一封邮件每通过一个服务器时就自动附加1,也就是说当一个邮件通过3个服务器时Received数就是3.
2.3 头文件调查结果
(1)Received数的调查结果。此次调查收集了3070封垃圾邮件和518封非垃圾邮件,对特征头文件的调查会以这些为参照。经调查当Received数是1时垃圾邮件占64%,非垃圾邮件占15%,当Received数是2时垃圾邮件占32%,非垃圾邮件占76%;(2)X-Mailer头文件调查结果。利用Microsoft Outlook Express软件发送的垃圾邮件占其总数的51.8%,而非垃圾邮件只占其总数的9.2%。没有利用邮件发送软件的垃圾邮件占其总数的26.8%,非垃圾邮件占其总数27.7%。而利用melcast.com发送的邮件中非垃圾邮件占其总数的61%;(3)Content-Transfer-Encoding头文件调查结果。编码长为7bit的垃圾邮件占其总数的84%,非垃圾邮件占其总数的93.6%,编码长度为quoted-printable和8bit的垃圾邮件占其总数的15%而非垃圾邮件只占其总数的1.9%。
2.4 数据库的做成
将调查结果分别做成相对应的数据库,通过制作好的程序将特征头文件抽出然后根据贝叶斯定理通过概率计算专用程序将计算的结果做成该头文件的数据库用来参照。该数据库记载的是判断一封邮件为垃圾邮件的概率。
3 实验与结果
本次实验将新搜集到的1705封垃圾邮件和97封非垃圾邮件作为判定对象参照现有的数据库进行判定。判定后将这些邮件再学习来验证这种贝叶斯垃圾邮件过滤器的可靠性。
3.1 头文件数据实验结果
(1)Received数单独判定时:检出率=0.694、误检出率=0.536、看错率=0.306、综合精度=0.681;(2)X-Mailer头文件单独判定时:检出率=1、误检出率=1、看错率=0、综合精度=0.946;(3)Content-Transfer-Encoding頭文件单独判定时:检出率=0.887、误检出率=0.979、看错率=0.113、综合精度=0.841。三个头文件同时利用判定时:检出率=0.945、误检出率=0.69、看错率=0.055、综合精度=0.911。
3.2 实验数据再学习
由于实验数据有限,垃圾邮件的数量是非垃圾邮件数量的17倍,所以本次实验将数据比例调整到两边的数量接近1:1利用贝叶斯过滤器的特性将试验数据追加到原始数据中再学习形成新的数据库。再学习后的数据库有垃圾邮件4775封,非垃圾邮件615封。检出率的比较结果为实验数据=0.945,再学习数据=0.969。从综合精度上来看实验数据的精度=0.911,再学习后的精度=0.925。
4 结束语
从实验结果上可以看出同时利用3个头文件对垃圾邮件的判定精度要高于单独使用头文件对垃圾邮件判定时的精度,另外看出将试验数据再学习后形成的新数据的判定精度也比原始数据的判定精度高,这也符合贝叶斯过滤器越学习判定精度越高的特点。
从这些结果上看利用电子邮件的头文件信息作为判定对象通过贝叶斯过滤器来对垃圾邮件的判定的对策具有一定的有效性。判定精度也会随着再学习的数量的增多而得到进一步的提高。
参考文献:
[1]渡边綾太.垃圾邮件教科书[M].日本:数据小屋株式会社,2006.
[2]森健人.关于利用贝叶斯过滤器来检测头文件信息的研究[D].岐阜大学,2008.
[3]松下隆史,村山公保,荒井透.精通TCP/IP入门(第3版)[M].日本:欧姆社株式会社,2002.
[4]陈勇,李卓桓.反垃圾邮件完全手册[M].北京:清华大学出版社,1998.
[5]曹麒麟,张千里.垃圾邮件与发垃圾邮件技术[M].北京:人民邮电出版社,2003.
[6]李学志.如何防范垃圾邮件[J].金融电子化,2003(01).
[7]张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(04).
作者简介:甘戈(1984-),辽宁西丰人,在读研究生,主要研究方向:计算机技术。
作者单位:中国科学院大学 计算机技术,沈阳 110168;沈阳新松机器人自动化股份有限公司,沈阳 100168;中国水利水电第六工程局有限公司,沈阳 110179;中国医科大学 基础医学院,沈阳 110013