论文部分内容阅读
图像型垃圾邮件近几年呈现出爆发式的增长势头。为了逃避垃圾邮件过滤器的过滤,垃圾邮件发送者常在图像中使用噪声、波动、扭曲、切分等多种干扰形式与垃圾邮件过滤器进行信息对抗。随着图像型垃圾邮件的爆发式增长,学术界和工业界提出了一些针对图像型垃圾邮件的过滤技术。然而,很多过滤技术还存在检测周期长、计算资源耗费高等问题,现有图像型垃圾邮件过滤技术与人们的实用目标之间的差距还很大。本文对图像型垃圾邮件的特点进行了分析,研究了图像型垃圾邮件主要过滤方式。首先,本文对图像型垃圾邮件过滤技术做了综述,主要包括图像型垃圾邮件的定义、种类和相应的特征,此外介绍了现有的图像型垃圾邮件方法。由于图像型垃圾邮件的复杂特性,也由于图像分析方法对计算密集程度相对要求较高,本文提出了一种既能保证过滤效率、又具有很高过滤精度的过滤体系层次结构。基于此层次结构,本文实现了系统中前端近似过滤部分和后端文字检测部分。图像型垃圾邮件多是批量发送,彼此间内容相似度高,本文提出一种新的有样本近似过滤系统。采用ORB结合分块颜色直方图,特征匹配采用可扩展词汇树,并构造适合中国国情的垃圾邮件图像库作为实验数据库。实验数据表明,本系统过滤单幅图像的时间低于80ms,且误检率低于0.01%。最后,本文实现了层次图像型垃圾邮件过滤结构中的文字检测部分。我们分析了现有的文字检测技术,结合汉字的特点,提出针对图像垃圾邮件的文字区域检测算法。算法首先采用Fast特征进行角点检测,然后采用边缘特征细定位,最后采用文本验证和启发式学习进行过滤。本文在垃圾邮件图像库上进行实验,算法取得了良好的效果。