论文部分内容阅读
随着全球互联网模式全面迈进WEB2.0时代,互联网信息的生成模式已由传统网站雇员生成转变为用户主导生成,借助微信、微博等多媒体社交平台进行虚拟社交活动日趋常态化,越来越多的人通过发布、分享多媒体信息来进行沟通交流。其中,以图像、视频为主的视觉数据占据的比重也逐渐加大。据谷歌公司的统计结果显示,图像数据占互联网数据总量的比重大于65%。由于图像数量的激增、图像本身的高维特性以及图像特征表示和高层语义的“语义鸿沟”等问题,如何针对大规模图像数据构建合理的表示方法和高效的索引结构在学术和工业领域都受到了广泛的关注。
近年来,伴随数据量的爆炸式增长,近似最近邻搜索的发展十分迅速,而针对高维度海量数据下的最近邻检索问题,哈希学习技术具有速度快、占用存储空间少并且能准确保留原始空间相似关系等优势,因此备受关注。目前,虽然一些有监督的哈希学习方法在某些公开的数据集上取得了不错的结果,但面对真实环境下的应用需求仍然存在诸多局限性。一方面,有监督标签通常为人工标注标签,标注过程耗时耗力;另一方面,人工标注由于类别数目上的限制,只能对图像内容进行粗粒度的描述。而互联网社交媒体上的标签不仅数量庞大,同时是一种反映群体智慧的无结构的语义标注信息,可以提供更准确、更详细语义信息。然而,在社交媒体环境下的描述信息由用户自发产生,具有多样性的特点,同时又存在噪音、不规范、语义模糊等问题,是一种“弱标注”信息。因此,如何有效利用社交媒体中反映群体智慧的“弱标注”信息来训练视觉语义哈希模型,进而提高检索效果是一个亟待解决的问题。另一方面,针对某些特定任务,已有人工标注的标签可能是一种相关但不准确的标注,例如,对于目标检测任务,图像级的标签就是一种相关但没有包含目标位置的弱监督标签,或者对于面瘫检测任务,面部表情的标签也是一种相关但不准确的标注。若能利用这类标签进行哈希学习,可以解决具体检索任务中的标签匮乏问题。此外,用户的图像检索需求除了全图检索外,还存在细粒度的检索需求,如用户可能关注的是查询图片中的感兴趣区域或对象。本文针对这两类检索模式,研究如何利用上述弱标注信息学习图像的哈希表达。具体开展了如下工作:
(1)研究基于用户标签的图像哈希学习方法
使用用户标记的图像来学习哈希映射函数不仅可以获得大量的深度哈希模型训练数据,而且用户标记数据具有丰富的语义信息,有助于更好地描述图像之间的相似关系。然而,标记数据存在噪声、模糊性和不完整性。针对这一问题,本文提出了一种针对用户弱标注标签的弱监督深度哈希学习框架。这一框架包括两个主要阶段:弱监督预训练和有监督微调。在第一阶段,框架没有直接将标签作为监督数据,而是为每个图像标签引入一个语义嵌入向量,并同时进行哈希和语义嵌入向量的学习。通过将多个相似一致性引入学习目标,可以有效解决语义缺失问题,学习出数据中蕴含的语义分布,准确表达视觉的语义信息。所提出的框架不依赖于特定的深度哈希方法,具有较好的扩展性。在实际数据集上的实验结果表明,当它与一些深度哈希方法相结合时,性能提高了8-10%。
(2)研究基于用户标签和图像显著性区域的深度哈希学习方法
针对由于用户标签掺杂了大量与检索目标无关的背景信息而导致的深度网络提取的图像特征对检索目标的描述度不足这一问题,本文提出了一种基于提取显著性区域的网络标签的深度学习图像检索方法。首先,对网络标签进行粗过滤,剔除与图像视觉内容无关的噪声标签;其次,提取图像的显著性区域,向量化网络标签,确定每个显著性区域对应的标签向量;然后,根据标签向量是否相同确定显著性区域图像的三元组作为深度网络的输入,优化VGG16网络结构,通过三元组目标函数来指导深度网络对图像区域的表示学习,生成具有强表达能力的图像区域深层特征;最后,通过距离函数比较待检图像与图像库中图像的相似度,得出相似图像。在NUS-WIDE数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索的准确率,优于当前主流方法。
(3)研究结合不准确标注信息和兴趣目标检测的结构化哈希学习方法
人类在进行视觉检索时,通常只是对视觉数据中的某些区域和物体感兴趣,如果能提取这些感兴趣区域(RegionofInterest,ROI)来描述视觉内容,不仅可以提供更丰富的检索方式,也可能在一定程度上克服语义鸿沟。传统的有监督兴趣目标检测方法通常需要在训练数据集中标定目标区域甚至像素级位置。这种方式不仅代价昂贵,更难以推广到社交媒体中的海量视觉媒体数据上。因此,本文设计了一种兴趣目标提取和哈希学习的联合模型,有机结合目标检测和目标哈希学习。该模型从深度学习的多尺度卷积神经网络特征图(近似表示输入图像中的不同大小的子区域)中提取候选目标,采用图像级别人工标注信息对兴趣目标提取模型进行弱监督训练,并且在统一的深度学习框架下,寻找最优的哈希函数,使得语义相似/不相似的视觉目标具有相近/相远的哈希编码。最后,依托目标区域的尺度、位置关系,建立结构化的哈希表示,为多样性的检索方式提供支撑。
(4)研究基于不准确标注信息预训练的图像哈希检索框架,并应用该框架解决面瘫分级问题
在实际的视觉检索任务中,某些情况下带有准确标注信息的数据相对较少,导致难以训练获得最优网络模型;而对于具有大数据量的与当前视觉检索任务相关的其他数据集,其标注信息与当前任务非直接相关。针对这一情况,我们可以利用其他相关数据集对用于当前任务的网络模型进行预训练,获得初始网络模型,然后再利用直接相关数据进行模型调优。此外,基于排序检索的分类方法能够更好地处理一些传统分类任务中存在不同类间的模糊性问题。为此,我们研究基于不准确标注信息预训练的图像哈希检索框架,并应用于分类问题。而面瘫分级评估就是一个典型的需要这种检索框架的具体应用实例。因此,本文以面瘫分级评估为例,针对在利用计算机视觉技术进行面瘫分级评估方法研究的过程中存在面瘫图像或视频数据量相对较少,以及基于分类的面瘫分级评估方法难以处理面瘫严重程度划分存在的模糊性等问题,提出利用表情数据和弱监督深度哈希网络模型进行面瘫分级评估的方法。该方法利用人脸表情数据库对深度网络模型进行预训练,然后再利用面瘫数据进行参数调优,最后基于图像搜索的方法对测试图像进行面瘫的分级评估。在利用面瘫数据进行模型训练的过程中,在最后的全连接层学习图像未二值化的哈希编码,以降低特征参数的维度和复杂度,达到降低图像搜索计算复杂度的目的。实验结果表明,相对传统的面瘫分级评估方法,提出方法性能有较大程度提升,且相对于利用现有的卷积神经网络进行图像分类的面瘫分级评估方法,本文方法在各项评价指标上都普遍具有优势。
近年来,伴随数据量的爆炸式增长,近似最近邻搜索的发展十分迅速,而针对高维度海量数据下的最近邻检索问题,哈希学习技术具有速度快、占用存储空间少并且能准确保留原始空间相似关系等优势,因此备受关注。目前,虽然一些有监督的哈希学习方法在某些公开的数据集上取得了不错的结果,但面对真实环境下的应用需求仍然存在诸多局限性。一方面,有监督标签通常为人工标注标签,标注过程耗时耗力;另一方面,人工标注由于类别数目上的限制,只能对图像内容进行粗粒度的描述。而互联网社交媒体上的标签不仅数量庞大,同时是一种反映群体智慧的无结构的语义标注信息,可以提供更准确、更详细语义信息。然而,在社交媒体环境下的描述信息由用户自发产生,具有多样性的特点,同时又存在噪音、不规范、语义模糊等问题,是一种“弱标注”信息。因此,如何有效利用社交媒体中反映群体智慧的“弱标注”信息来训练视觉语义哈希模型,进而提高检索效果是一个亟待解决的问题。另一方面,针对某些特定任务,已有人工标注的标签可能是一种相关但不准确的标注,例如,对于目标检测任务,图像级的标签就是一种相关但没有包含目标位置的弱监督标签,或者对于面瘫检测任务,面部表情的标签也是一种相关但不准确的标注。若能利用这类标签进行哈希学习,可以解决具体检索任务中的标签匮乏问题。此外,用户的图像检索需求除了全图检索外,还存在细粒度的检索需求,如用户可能关注的是查询图片中的感兴趣区域或对象。本文针对这两类检索模式,研究如何利用上述弱标注信息学习图像的哈希表达。具体开展了如下工作:
(1)研究基于用户标签的图像哈希学习方法
使用用户标记的图像来学习哈希映射函数不仅可以获得大量的深度哈希模型训练数据,而且用户标记数据具有丰富的语义信息,有助于更好地描述图像之间的相似关系。然而,标记数据存在噪声、模糊性和不完整性。针对这一问题,本文提出了一种针对用户弱标注标签的弱监督深度哈希学习框架。这一框架包括两个主要阶段:弱监督预训练和有监督微调。在第一阶段,框架没有直接将标签作为监督数据,而是为每个图像标签引入一个语义嵌入向量,并同时进行哈希和语义嵌入向量的学习。通过将多个相似一致性引入学习目标,可以有效解决语义缺失问题,学习出数据中蕴含的语义分布,准确表达视觉的语义信息。所提出的框架不依赖于特定的深度哈希方法,具有较好的扩展性。在实际数据集上的实验结果表明,当它与一些深度哈希方法相结合时,性能提高了8-10%。
(2)研究基于用户标签和图像显著性区域的深度哈希学习方法
针对由于用户标签掺杂了大量与检索目标无关的背景信息而导致的深度网络提取的图像特征对检索目标的描述度不足这一问题,本文提出了一种基于提取显著性区域的网络标签的深度学习图像检索方法。首先,对网络标签进行粗过滤,剔除与图像视觉内容无关的噪声标签;其次,提取图像的显著性区域,向量化网络标签,确定每个显著性区域对应的标签向量;然后,根据标签向量是否相同确定显著性区域图像的三元组作为深度网络的输入,优化VGG16网络结构,通过三元组目标函数来指导深度网络对图像区域的表示学习,生成具有强表达能力的图像区域深层特征;最后,通过距离函数比较待检图像与图像库中图像的相似度,得出相似图像。在NUS-WIDE数据集上的实验结果表明,本文方法能够有效地增强图像特征的表达能力,提高图像检索的准确率,优于当前主流方法。
(3)研究结合不准确标注信息和兴趣目标检测的结构化哈希学习方法
人类在进行视觉检索时,通常只是对视觉数据中的某些区域和物体感兴趣,如果能提取这些感兴趣区域(RegionofInterest,ROI)来描述视觉内容,不仅可以提供更丰富的检索方式,也可能在一定程度上克服语义鸿沟。传统的有监督兴趣目标检测方法通常需要在训练数据集中标定目标区域甚至像素级位置。这种方式不仅代价昂贵,更难以推广到社交媒体中的海量视觉媒体数据上。因此,本文设计了一种兴趣目标提取和哈希学习的联合模型,有机结合目标检测和目标哈希学习。该模型从深度学习的多尺度卷积神经网络特征图(近似表示输入图像中的不同大小的子区域)中提取候选目标,采用图像级别人工标注信息对兴趣目标提取模型进行弱监督训练,并且在统一的深度学习框架下,寻找最优的哈希函数,使得语义相似/不相似的视觉目标具有相近/相远的哈希编码。最后,依托目标区域的尺度、位置关系,建立结构化的哈希表示,为多样性的检索方式提供支撑。
(4)研究基于不准确标注信息预训练的图像哈希检索框架,并应用该框架解决面瘫分级问题
在实际的视觉检索任务中,某些情况下带有准确标注信息的数据相对较少,导致难以训练获得最优网络模型;而对于具有大数据量的与当前视觉检索任务相关的其他数据集,其标注信息与当前任务非直接相关。针对这一情况,我们可以利用其他相关数据集对用于当前任务的网络模型进行预训练,获得初始网络模型,然后再利用直接相关数据进行模型调优。此外,基于排序检索的分类方法能够更好地处理一些传统分类任务中存在不同类间的模糊性问题。为此,我们研究基于不准确标注信息预训练的图像哈希检索框架,并应用于分类问题。而面瘫分级评估就是一个典型的需要这种检索框架的具体应用实例。因此,本文以面瘫分级评估为例,针对在利用计算机视觉技术进行面瘫分级评估方法研究的过程中存在面瘫图像或视频数据量相对较少,以及基于分类的面瘫分级评估方法难以处理面瘫严重程度划分存在的模糊性等问题,提出利用表情数据和弱监督深度哈希网络模型进行面瘫分级评估的方法。该方法利用人脸表情数据库对深度网络模型进行预训练,然后再利用面瘫数据进行参数调优,最后基于图像搜索的方法对测试图像进行面瘫的分级评估。在利用面瘫数据进行模型训练的过程中,在最后的全连接层学习图像未二值化的哈希编码,以降低特征参数的维度和复杂度,达到降低图像搜索计算复杂度的目的。实验结果表明,相对传统的面瘫分级评估方法,提出方法性能有较大程度提升,且相对于利用现有的卷积神经网络进行图像分类的面瘫分级评估方法,本文方法在各项评价指标上都普遍具有优势。