基于内容的垃圾邮件过滤技术研究

被引量 : 0次 | 上传用户:huangweiririri
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的飞速发展,电子邮件成了人们日常生活中不可或缺的通信方式。然而同时也有大量的垃圾邮件随之而生,这些垃圾邮件包含反动、诈骗、推销及非法出售等各种内容,在严重干扰人们正常通信的同时,也存在危害社会的隐患。最近的调查显示,在这些垃圾邮件中,文字仍然是其主要的传播形式,因此基于邮件内容的垃圾邮件过滤技术一直是反垃圾邮件的主要研究方向。基于内容的垃圾邮件过滤技术主要分为分词、文本表示、特征选择和分类四大部分,很多研究人员在这四个方面做了大量工作,取得了很多成果。本论文对垃圾邮件过滤的这四个部分进行了原理分析,主要研究了其中的特征选择算法,并根据垃圾邮件过滤的特点对互信息特征选择算法进行了改进。其中,简要地阐述了基于内容的垃圾邮件过滤技术的发展、应用和现状,描述了各个环节的算法原理。在分词部分,在对垃圾邮件内容分析的基础上,对传统的分词算法增加了分词预处理环节,并给出了新的分词算法流程。在特征选择部分,重点论述了互信息算法在垃圾邮件过滤中的应用,从频度、分散度和集中度三个方面对传统互信息算法进行了分析和改进,在传统互信息算法中加入了词频因子,采用类别贡献比来衡量特征对类别贡献的差别,并采用真实邮件集在MATLAB上进行了仿真实验。在文本分类部分,分析了bayes分类算法在垃圾邮件过滤中的应用,并选择朴素bayes分类算法在weka环境中进行了邮件分类实验。将改进算法的实验与传统互信息算法以及其他文献中的实验进行对比,对比结果表明,在维数压缩率相近的条件下,改进后的互信息算法显著提高了垃圾邮件的查准率和查全率,为后续的邮件分类环节提供了更好的基础。
其他文献
从传播学的角度来说,互联网的web2.0时代最重大意义是为互联网用户搭建了一个话语平台,使受众从信息接受者转变为信息制造者和传播者,模糊了传播者和受众之间的角色界限。在
期刊
本论文以弹载捷联惯性测量组合(IMU)的研制任务为背景,针对某型机械抖动激光陀螺捷联惯组采取轻小型化设计、减振设计、减重设计带来的安装结构刚度不足,导致减振系统谐振频
在现代大学中,到底应该重科研还是应该重教学,是人们长期争论的话题。厘清科研和教学的关系,对于正确认识和处理两者的关系意义重大。研究认为,高校科研和教学对大学生创新能
<正>1993年在英国独立电视台播出的喜剧《全能管家》风靡一时,剧中无所事事的单身阔佬在才华横溢的男仆帮助下,使原有杂乱无章的生活变得井然有序。当然,我们无需羡慕贵族们
本文分析了小学英语单元复习课存在的问题,提出设计恰当的教学主线串联始终,把语言的操练放在主题情境中、话题中、游戏中以及情感中,旨在有效地培养学生的语言综合运用能力
水电工程项目具有建设规模大、周期长、技术复杂、施工环节和制约因素众多等特点。而小水电工程项目因受技术条件、管理水平、经济状况、地理环境、法律环境、文化与宗教及政
【目的】观察知柏地黄汤对解脲脲原体(UU)感染大鼠生精细胞凋亡及对细胞凋亡线粒体调控效应因子Caspase-3、Caspase-9表达的影响。【方法】从60只雄性SD大鼠中随机抽取45只,
记载吕尚的文献繁多,但是对于吕尚初遇周文王时的年龄、地点及其故里始终存在着不同的说法。本文试从《楚辞》中关于吕尚的记载出发,和其他文献关于吕尚的记载作对比,得出比
大数据及其技术是当前信息领域的讨论热点,作为新兴技术大数据给互联网营销领域发展带来一些问题如数据处理框架、科研要求、用户服务以及安全隐私等,电商网站必须要进行相适
阿迪达斯为德国的世界第一运动品牌,他一直有着一种特殊的地位,而这种高贵的地位有人称之为"胜利的三条线"。自1948年创立至今,他帮助国内外无数的运动选手缔造佳绩,成就了不