论文部分内容阅读
电子邮件是互联网应用的一个成功典范,已经成为人们日常通信、交流的一种重要手段。近年来,基于邮件内容,并结合机器学习理论、文本分类和信息过滤技术的垃圾邮件过滤器得到了广泛的应用,但这些方法都有一定的局限性,对图像格式的垃圾邮件无能为力。因此,随着图像垃圾邮件数量的日益增长,如何识别和过滤图像垃圾邮件成为IT界及邮件服务提供商迫切需要解决的问题。首先,分析了垃圾邮件过滤问题的研究现状,主要包括垃圾邮件的定义、危害以及当前主流的垃圾邮件过滤技术及其优缺点等;论述了垃圾邮件广告图像过滤中的关键问题,针对广告图像的特点,对图像低层视觉特征提取方法进行了改进,并构建出了广告图像低层多视觉特征样本库。其次,针对图像垃圾邮件的特性,本文在分析垃圾邮件发送行为及邮件内容的基础上,利用垃圾邮件大批量、反复发送及内容高度相似的特点,提出一种基于图像语义特征相似性检测的垃圾邮件图像过滤方法。本方法通过检测邮件图像与垃圾邮件图像的相似度来实现,提取邮件图像的多种低层视觉特征,并将其映射到高层语义特征,形成广告垃圾邮件图像语义特征库;基于语义特征比较待分类邮件图像与广告垃圾邮件图像语义样本的相似度,以此判断该邮件图像是否为广告垃圾邮件图像。最后,将提出的方法应用到垃圾邮件过滤系统中,并进行了实验验证。结果表明,基于图像语义相似性检测的广告垃圾邮件图像过滤方法具有较高的准确率。