论文部分内容阅读
在网络和通信技术迅速发展的今天,电子邮件逐渐成为人们生活中便捷的通信手段之一。然而,随之产生的垃圾邮件像瘟疫一样蔓延,给用户带来了极大的不便。大量的垃圾邮件不仅污染网络环境,还占用大量传输、存储和运算资源,影响网络的正常运行。因此,如何准确地从大量邮件中过滤无用的邮件,寻找用户所需的有用邮件,已成为当前一个热门话题——“垃圾邮件过滤”问题。 当前对垃圾邮件的识别主要有两种方法:根据利用IP,域名的”黑白名单”或自定义规则进行的邮件限制;或者根据学习到的垃圾邮件特征进行识别。前者主观性太强,容易造成大量合法邮件的误判和垃圾邮件的漏判。而后者则需要长时间的训练和学习。故目前的垃圾邮件过滤工具通常采用多层过滤,基本过滤层由白名单、白关键字、黑名单和黑关键字等组成,高级过滤层则采用基于内容的机器学习判别方法。 本文在深入分析垃圾邮件过滤方法的基础上,结合使用黑白名单法,将属性论方法巧妙地应用到邮件过滤领域,设计出一种新型的基于属性论方法的垃圾邮件过滤模型。由于垃圾邮件和合法邮件特征的识别可以看作是一种基于合取的复杂性质判断,并且以垃圾邮件或合法邮件特征库为定性基准的定性映射可表达为由多维属性确定的一个定性判断操作,因此我们可以利用此定性映射模型来过滤邮件。 为了提高效率,本系统利用索引结构组织庞大的特征向量空间,通过一系列的算法生成垃圾邮件和合法邮件各自的特征库。根据属性论的思想,对于每一个特征空间分量,本文引入权重{0,ε}表示各分量对最终结果的影响程度。然后,以加权后的特征向量作为定性基准,为测试邮件建立不同的定性映射模型。考虑到新邮件属于垃圾邮件或者合法邮件的程度,本系统引入转化程度函数。利用转化程度函数,计算新邮件与特征库中记忆模式的相似程度。对新邮件里的每个特征项都做同样计算并累加起来,最后根据累加值判断该邮件是否垃圾邮件。 经过大量的测试表明,基于属性论方法的垃圾邮件过滤系统能较好地过滤垃圾邮件,具有较高的正确率和召回率。实验证明基于属性论方法的垃圾邮件过滤模型是可行的,这为我们进一步研究邮件过滤打下较好的基础。