基于语义的广告图像垃圾邮件过滤技术研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:lwb3344
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子邮件是互联网应用的一个成功典范,已经成为人们日常通信、交流的一种重要手段。近年来,基于邮件内容,并结合机器学习理论、文本分类和信息过滤技术的垃圾邮件过滤器得到了广泛的应用,但这些方法都有一定的局限性,对图像格式的垃圾邮件无能为力。因此,随着图像垃圾邮件数量的日益增长,如何识别和过滤图像垃圾邮件成为IT界及邮件服务提供商迫切需要解决的问题。首先,分析了垃圾邮件过滤问题的研究现状,主要包括垃圾邮件的定义、危害以及当前主流的垃圾邮件过滤技术及其优缺点等;论述了垃圾邮件广告图像过滤中的关键问题,针对广告图像的特点,对图像低层视觉特征提取方法进行了改进,并构建出了广告图像低层多视觉特征样本库。其次,针对图像垃圾邮件的特性,本文在分析垃圾邮件发送行为及邮件内容的基础上,利用垃圾邮件大批量、反复发送及内容高度相似的特点,提出一种基于图像语义特征相似性检测的垃圾邮件图像过滤方法。本方法通过检测邮件图像与垃圾邮件图像的相似度来实现,提取邮件图像的多种低层视觉特征,并将其映射到高层语义特征,形成广告垃圾邮件图像语义特征库;基于语义特征比较待分类邮件图像与广告垃圾邮件图像语义样本的相似度,以此判断该邮件图像是否为广告垃圾邮件图像。最后,将提出的方法应用到垃圾邮件过滤系统中,并进行了实验验证。结果表明,基于图像语义相似性检测的广告垃圾邮件图像过滤方法具有较高的准确率。
其他文献
数据挖掘是从海量数据中挖掘有用知识的一个强有力的工具,可以帮助人们从数据中获取更深层次的有用信息,已经在银行、保险、电信、生物数据分析等领域得到了广泛的应用。随着
优良的头发模拟方法在虚拟人的真实感绘制中起着决定性的因素。但是头发自身的复杂结构以及其在力的作用下的复杂的运动规律给头发的模拟过程带来了很大的障碍,使得模拟方法
当前在数据挖掘领域中,数据流聚类分析成为聚类研究中的一个重要方向。基于网格的聚类算法中网格的划分粒度直接影响聚类质量,且不适用于高维数据流聚类。针对上述问题,本文