图像型垃圾邮件的特征选择算法研究及实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gaobaobao127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,垃圾邮件的泛滥严重影响了人们的网络交流和生活,其中图像型垃圾邮件在整个垃圾邮件中所占比重日趋加大。为遏止图像型垃圾邮件的泛滥,研究人员提出了基于不同特征集合的图像型垃圾邮件检测算法,但这些算法在时间效率和精度上无法兼顾。本文对图像型垃圾邮件特征作了全面的分析,提出了一种应用于图像型垃圾邮件的特征选择算法——R-ReliefF算法,用以优化图像特征集合,提高过滤算法性能。在此基础之上,本文对一种新型图像型垃圾邮件——多帧图像型垃圾邮件的过滤算法作了深入探讨。最后,通过分析现有图像型垃圾邮件过滤系统的优缺点,结合本文提出的R-ReliefF算法以及多帧图像型垃圾邮件过滤算法,总结出了一种多层次的图像型垃圾邮件过滤系统。本文首先对图像型垃圾邮件过滤技术的现状作了概述。包括图像型垃圾邮件检测的难点、主流的图像型垃圾邮件识别算法、以及算法的性能评价标准。目前图像型垃圾邮件识别算法并未取得理想的过滤效果。本文认为原因主要在于:①图像型垃圾邮件的特征集合未优化。②新型图像型垃圾邮件的出现使得现有的过滤系统失去效用。因此在对图像分类之前应首先筛选出识别效果更好的图像型垃圾邮件特征集合。本文提取出目前图像型垃圾邮件过滤算法常用的图像型垃圾邮件特征,形成原始特征集合。集合中特征个数和种类较多,难免含有无关和冗余特征,影响过滤算法性能。本文基于经典的ReliefF特征选择算法,提出一种适合于图像型垃圾邮件的特征选择算法——R-ReliefF算法,其中包括图像特征数据预处理、特征和类别信息的无关度计算、特征之间冗余度计算以及RMerits特征子集评价,最后选择出识别度较好且容易提取的特征子集作为识别图像型垃圾邮件的依据。实验显示,R-ReliefF算法可以有效地优化特征集合,提高训练和分类时的速度和精度。本文将R-ReliefF算法应用在识别新型的图像型垃圾邮件——多帧图像型垃圾邮件上。首先提取多帧图像型垃圾邮件图像特征,包括帧间特征以及每帧图像的特征,形成多帧图像型垃圾邮件特征集合。然后利用R-ReliefF算法对特征集合进行对比和筛选,最后得出识别效果较好的特征子集,并结合支持向量机分类算法得出分类结果。虽然多帧图像型垃圾邮件比普通的单帧图像型垃圾邮件包含更多的干扰元素,但实验结果显示,本文提出的过滤算法可以识别接近90%的多帧图像型垃圾邮件。最后,本文提出了一种基于R-ReliefF算法的多层次图像型垃圾邮件过滤系统。本系统采用本文提出的R-ReliefF算法,首先对单帧图像型垃圾邮件的各种特征进行筛选,得出文件属性、颜色以及文本特征三大类区分度较高的特征集合;其次利用这三类特征集合,形成三个单帧图像型垃圾邮件过滤子模块。然后对这三个过滤子模块的识别结果进行投票计算,得出最终的识别结果,并可对投票错误的子模块进行学习。最后结合传统过滤算法和多帧图像型垃圾邮件过滤算法形成多层次的图像型垃圾邮件过滤系统。实验结果显示,本系统对传统单帧图像型垃圾邮件的过滤精度大于97%,对多帧图像型垃圾邮件过滤精度大于90%,且实时性较高,是一个实用性比较高的图像型垃圾邮件过滤系统。
其他文献
随着测井技术的不断发展,传统的感应测井技术已经远远不能满足石油工业的需求,随钻测井以其测量精度高、测量及时、测量信息准确客观等众多优点已经成为当前最热门的发展方向之
调制类型的不断增多和通信系统间的互通性要求促进了信号调制识别技术的不断发展。而正交频分复用(Orthogonal Frequency Division Multiplexing, OFDM)技术以其频带利用率高
在20世纪80年代,一种新的分析方法出现在应用数学的调和分析领域,即小波分析。在小波分析中,其重点在于小波变换,它是一种针对信号的时间-频率分析方法。并且它具有多分辨率
语音识别是让机器能够“听懂”人类的语言、并把人类的语音信号转化为相应的文本或命令的技术[1]。语音识别可以认为是模式识别的一个分支,它与声学、语言学、心理学、数字信号
1963年Gallager发明的LDPC码在Turbo码出现后重新得到编码界的关注。虽然LDPC码的译码算法已经是成熟的技术,但对于具体应用而言,进一步降低译码复杂度是一个重要问题。因为
水下机器人在世界范围内的应用领域已经不断扩大,如海洋研究、海洋开发和水下工程等。本论文的研究内容是围绕课题组项目“水下机器人声视觉技术”中高分辨率成像声纳嵌入式
H.264/AVC是最新数字视频国际编码标准。相对于以往的标准,H.264标准拥有更高的编码效率,更宽的码率范围,更好的图像质量,更强的网络友好性和抗误码能力。然而其性能提高的同
随着科技的不断发展,各式各样的多媒体技术在计算机网络和日常生活中得到了广泛的应用。其中,JPEG静态图像压缩标准以其良好的压缩性能在图像处理领域获得了广泛的应用。通过
H.264/AVC是由国际电信联盟(ITU-T)和国际标准化组织(ISO)共同制定的新一代低码率视频压缩编码标准,具有高压缩比、高图像质量、良好的网络适应性等优点,在数字电视广播、视
2007年9月,中国汽车技术研究中心汉阳专用汽车研究所(以下简称汉阳所)乔迁新址.