基于属性论方法的垃圾邮件过滤系统设计与研究

被引量 : 2次 | 上传用户:meganleejin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络和通信技术迅速发展的今天,电子邮件逐渐成为人们生活中便捷的通信手段之一。然而,随之产生的垃圾邮件像瘟疫一样蔓延,给用户带来了极大的不便。大量的垃圾邮件不仅污染网络环境,还占用大量传输、存储和运算资源,影响网络的正常运行。因此,如何准确地从大量邮件中过滤无用的邮件,寻找用户所需的有用邮件,已成为当前一个热门话题——“垃圾邮件过滤”问题。 当前对垃圾邮件的识别主要有两种方法:根据利用IP,域名的”黑白名单”或自定义规则进行的邮件限制;或者根据学习到的垃圾邮件特征进行识别。前者主观性太强,容易造成大量合法邮件的误判和垃圾邮件的漏判。而后者则需要长时间的训练和学习。故目前的垃圾邮件过滤工具通常采用多层过滤,基本过滤层由白名单、白关键字、黑名单和黑关键字等组成,高级过滤层则采用基于内容的机器学习判别方法。 本文在深入分析垃圾邮件过滤方法的基础上,结合使用黑白名单法,将属性论方法巧妙地应用到邮件过滤领域,设计出一种新型的基于属性论方法的垃圾邮件过滤模型。由于垃圾邮件和合法邮件特征的识别可以看作是一种基于合取的复杂性质判断,并且以垃圾邮件或合法邮件特征库为定性基准的定性映射可表达为由多维属性确定的一个定性判断操作,因此我们可以利用此定性映射模型来过滤邮件。 为了提高效率,本系统利用索引结构组织庞大的特征向量空间,通过一系列的算法生成垃圾邮件和合法邮件各自的特征库。根据属性论的思想,对于每一个特征空间分量,本文引入权重{0,ε}表示各分量对最终结果的影响程度。然后,以加权后的特征向量作为定性基准,为测试邮件建立不同的定性映射模型。考虑到新邮件属于垃圾邮件或者合法邮件的程度,本系统引入转化程度函数。利用转化程度函数,计算新邮件与特征库中记忆模式的相似程度。对新邮件里的每个特征项都做同样计算并累加起来,最后根据累加值判断该邮件是否垃圾邮件。 经过大量的测试表明,基于属性论方法的垃圾邮件过滤系统能较好地过滤垃圾邮件,具有较高的正确率和召回率。实验证明基于属性论方法的垃圾邮件过滤模型是可行的,这为我们进一步研究邮件过滤打下较好的基础。
其他文献
对于中重度智障学生来说,古诗韵律强、简短易于诵读,但其语言精练、意义抽象、表达含蓄等特点又在一定程度上给学生学习带来了困难。对此,将古诗与乐曲、乐器、歌唱、画面、
我国是世界洪水灾害最为严重的国家之一,防洪减灾一直是国家的基本战略。如何在洪水风险中谋求生存和发展是风险管理中长期存在的问题,随着经济社会的进步,这一问题将越来越
目的分析尿路感染诊断中细菌培养与尿沉渣细菌定量检测的临床意义。方法对我院2017年7月-2017年12月疑似为尿路感染的106例患者进行尿沉渣细菌定量计数和尿液细菌培养,对比尿
<正>语文,是人类教育的基础学科,也是人类文化的最重要组成部分。语,指语言和说话;文,指文采和风华。古曰:"言之无文,行而不远。"语文教育"兼有工具性、
<正>日前,广东省广州市地税局下发通告,明令符合土地增值税清算条件但尚未清算的房地产企业,一个月内必须到税务机关办理清算手续,逾期不办理的,税务机关将按有关规定进行处
本文就我国期货市场风险管理问题进行了研究,旨在立足我国期货市场风险管理的现实,提出改革建议,促进稳步健康发展。 本文首先对期货市场风险的几种表达进行了归纳,并做出
洗钱是一个复杂、连续的过程,典型的洗钱犯罪可以分为三个步骤,即入账、分账和融合。洗钱犯罪的方式也是多种多样,典型的有利用保密天堂和空壳公司洗钱,利用现金密集行业洗钱
随着计算机网络的普及,网络安全问题日益突出,防火墙作为一种行之有效的网络安全机制,已经得到广大用户的认同。 作者在研究包过滤、代理服务、状态检测等防火墙基本实现技术
应用数理统计方法对学生的学习成绩与身体状况进行了相关分析,建立了学习成绩与身体状况的回归方程.结果显示,学生的学习成绩与身体状况的相关性微弱,但与身体状况的其他指标
期刊