论文部分内容阅读
随着大数据时代的到来,以文本、图像、语音等为代表的多媒体数据在数据量和数据多样性上均达到了很大的规模,进而对这些多媒体数据进行检索和建模也逐渐变得具有吸引力,即针对多媒体数据中存在的多模态性进行研究已经成为热点。而为了克服多模态数据存在的数据结构多样性、信息复杂性和对任务的不匹配性,多模态数据融合起着很重要的作用,其可以通过整合多模态中所包含的信息从而得到一个任务导向的统一表征。在这其中,面向构建统一表征的共同空间学习是主要途径,即针对数据中存在的多模态性进行建模,从而为多元输入学习潜在的共同空间从而实现稠密数据检索和目标定位、数据不平衡处理和多模态数据检索。本论文的研究以深度神经网络和深度学习作为共同空间学习的主要技术。首先,针对多模态数据中稠密数据的建模,本论文提出了细粒度渐进注意力定位网络(FPAN)以完成针对图像数据的检索和定位工作。即着重对深度学习如何建模图像数据进行研究,特别是解决输入目标图像在待检索图像上如何进行目标定位这一关键问题。对这一问题的解决有效地探索了稠密模态数据间的信息交互并有助于推动研究深度学习如何用于共同空间学习的建模。FPAN以全卷积网络、细粒度“软”注意力和级联上采样为基本模块,直接处理查询目标图像和待检索图像,以智能化的方式完成目标物体在待检索图像上的准确定位,从而实现多模态稠密数据到有效检索定位信息的转换。然后,本论文研究了在多模态数据建模中经常存在的数据不平衡问题,并提出基于多信息融合的混合采样算法(MIFS)以克服现有采样算法仅根据单一信息来指导采样而导致采样后的平衡数据可分性下降的问题。简而言之,现有采样算法不能准确定义有害和无用的样本,即仅根据单一信息不足以充分认知样本。本文提出的MIFS利用模型对数据的认知和数据的固有属性共同对样本进行定义,从而依据多种定义将数据集划分为意义明确的多个子集,然后在不同子集上采用与其定义相应的采样算法。通过这种算法平衡后的数据集,不但能有效保留原始数据集中的信息,同时充分填充有效样本,解决了数据不平衡中的关键问题。最后,本论文创新性地提出了可用于多模态数据检索的细粒度共同空间学习模型,以解决1)传统共同空间构建过程中的模态间细粒度信息丢失的问题;2)多模态间的对应局部信息捕捉模块难以和整体模块共同优化的问题。具体而言,本论文提出了一个新颖的包含注意力对齐机制的多模态长短记忆力网络(AAM-LSTM),其主要包含注意力对齐循环网络(AA-R)和分层多模态LSTM(HM-LSTM)。不同于传统的直接运行在粗略特征上的算法,本文提出的算法明确使用模态间和模态内局部信息的关联来构建多模态数据的统一表征。其中,AA-R在不需要标签的情况下能自动捕捉语义对齐的局部信息来学习共同子空间。HM-LSTM利用这些局部信息的潜在关联来完成细粒度共同空间学习。实验表明,由AAM-LSTM所得的细粒度共同空间能有效提高数据检索精度。