基于图像内容的成人图像检测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:auh123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网已经成为人们生活中密不可分的重要组成部分。但同时在互联网海量的图像中,出现了大量有害的成人图像。检测并过滤互联网上的成人图像,已经成为各国研究者日益关注的一个紧迫问题。其中,多数的研究者采取了分析图像内容的方法来识别成人图像。近些年来提出的识别算法大多都建立在各种低层图像特征的基础之上,例如颜色、纹理和肤色区域等方面的特征。这类方法会产生大量的误检,特别是当图片中包含了大面积类似肤色的区域,例如人物类图像被误判的情况就很普遍。于是本文展开了对图像内容的深入分析,试图减少对肤色检测结果的依赖,并降低误检率。本文选择图像的局部特征为突破口。在系统中,将局部特征量化为视觉单词,据此可以高效地分析图像的上下文语义,并结合其它方面的低层特征,对图像的类别给出综合的判断。论文的具体研究内容如下:首先对各种重要的低层特征展开了的研究,并进行了相应的改进。所考察的特征包括:颜色、肤色分布、局部特征、以及边缘线条特征。对于各种特征,都探讨了不同的方案在成人图像检测中的效果。并针对传统方法的不足,提出了有针对性的改进,主要包括:通过统计肤色块局部模式的出现规律,提出了一种新的描述肤色分布的特征;在局部特征方面,同时使用了局部的形态和纹理信息,并适度简化了局部特征点的采集算法;此外,对于局部特征无监督量化中所产生的随意性,通过调整和限制局部特征量化簇集的半径,提高了量化结果(即“视觉单词”)的质量;对图像中线条的分布情况,以局部短线段为基础,建立了旋转不变的描述。实验证明,上述特征产生了更好的识别能力。然后以普通的视觉单词为基础,建立了对成人图像视觉单词上下文的多层描述体系。该体系总共分3个层次,除了普通的视觉单词,还包括:中间层的词组,以及更高层的兴趣区域(region of interest,ROI)话题。词组是视觉单词的局部相邻关系的描述模型,本文建立了一种简单而高效的局部词组生成算法。ROI话题则用于在更大的尺度上(ROI)描述成人图像中视觉单词的上下文关系。在实验中发现,高层的视觉单词降低了普通单词的歧义性,并提高了对成人图像的识别性能。此外,还提取了敏感单词分布特征,从而补充了对视觉单词的全局分布信息的描述。最后,将子空间学习的思想融入到算法中,通过向量映射,不但使图像特征向量得以显著降维,而且使图像的语义距离和空间距离更为协调。通过上述各项对视觉单词出现规律的多层次分析,有效地提高了成人图像的识别准确率。实验结果证明,相比于传统类型方法,基于视觉单词的方法不再从根本上依赖肤色检测,从而明显地降低了误检率,尤其是在人物类图像中效果更加明显。基于上述的多层描述体系,提出了一种融合了视觉单词上下文的图像核函数。该核函数以单词和词组的多粒度直方图金字塔为基本框架,利用直方图的交运算来计算图像的相似性,并在其中融入了各个单词所处的上下文类别信息。实验结果显示,不论是在一般意义的图像识别中,或是在本文所讨论的成人图像识别中,均可以借助这种核函数来提高支持向量机(support vectormachine,SVM)的识别性能。考虑到基于上述核函数的检测方法具有较高的计算复杂度,于是又提出一种将核函数与局部学习相结合的识别算法。该算法使特征空间中成人图像模式的分析变得尽可能局部化,从而可以只使用一幅图像邻近的训练数据来对其进行分类。首先利用一些普通的特征将图像分成若干组;而后在各组的训练数据中采集了部分有代表性的数据点作为代表点;继而在各代表点邻域内建立了子SVM分类器,并依据各个子SVM的识别性能对其赋以相应的权重;最终利用测试图像的k个近邻子SVM来共同判断图像的类别。在实验中证明,这种基于局部空间分析的策略不但有效地控制了计算复杂度,而且能够准确地识别散布于各个局部空间中的成人图像。本文充分利用了成人图像中各种类型的信息,全面地分析了图像的语义,以视觉单词为基础,发展出了一套完整的识别策略。系统的检测性能明显地超越了传统类型的成人图像检测方法,在以往难以准确识别的图像中,错判大为减少。
其他文献
随着多媒体信息处理技术和互联网的普及,一种新的信息安全技术--信息隐藏技术应运而生。几何攻击在保持图像视觉质量完好的同时,将使信息隐藏系统失去同步而导致嵌入的信息无
迪士尼是全球IP之王,根据License Global公布的全球最大150家授权商榜单显示,迪士尼2016年的授权产品全球零售额达到566亿美元,位居第一,比第二位高出近两倍。
在《气象研究与应用》创刊60年之际,广西出版协会向贵刊表示热烈的祝贺!向贵刊全体工作者表示诚挚的问候!经过几代人的不懈努力和开拓创新,《气象研究与应用》一步一步走向成熟
利用2015~2017年淮河流域汛期ECMWF(空间分辨率0.125°x0.125°)、JMA(空间分辨率0.5°x0.5°)、WRF(空间分辨率0.1°x0.1°)6h、12h、24h时间分辨
利用IPRC高分辨率区域气候模式设计了两组不同初始时刻(3月和5月)的试验,分别对6-10月热带气旋活动的特征及其大尺度环境场进行了17年的模拟试验。结果表明,两组试验对大尺度环
图像的语义识别和检索,一直以来都是计算机领域的热点问题。该问题涉及了图像处理、模式识别、人工智能以及机器视觉等众多学科领域。本文针对其中的若干关键问题做了研究,取
电子政务是国家“十一五”规划提出的信息化建设重点内容,也是当前信息技术研究与开发的重要领域。电子政务本身的特点(开放性、虚拟性、网络化)对其安全性和管理技术与方案
作为中职体育中重点教学项目,篮球教学对于提升中职学生身体素质和团队合作能力等方面起到非常重要的作用。这就应加强中职篮球教学力度,缓解中职学生日常学习压力。而且中职
随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移,Deep Web包含的信息为Surface Web的400-500倍,与Surface Web相比,Deep
中央决定设立河北雄安新区,是继深圳经济特区和上海浦东新区之后又一具有全国意义的新区,被视为是千年大计、国家大事。根据官方的说法,雄安新区的设立首先是为深入推进京津