基于视觉语义表示的视觉对话方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:succeeboss1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的不断发展,计算机视觉领域与自然语言处理领域相结合的相关任务研究逐渐成为计算机领域中的一个研究热点。虽然之前已经有相关的研究,如图像语义描述生成以及视觉问答任务,但是这两个任务都只能通过单次交互帮助人类对图像中的信息有基础的了解,而现实生活中对图像中内容的理解是一个循序渐进的过程,即需要通过多次交互对图像中部分内容进行理解,进而通过不断累积最后实现对图像中全部内容的理解。因此,为了能更好地模拟人类在现实生活中通过交互的方式对图像进行理解的过程,相关研究者提出了多轮问答形式的视觉对话任务。视觉对话任务的目的是在给定一张图片、之前的对话历史(问答对)以及当前提出的问题的基础上,对当前问题的答案进行预测,这就不仅需要对图像中的视觉信息以及对话历史和当前问题的语义信息进行深入理解,同时需要分析和利用不同模态信息之间的关系。本文主要针对视觉对话任务中不同模态数据的视觉语义表示进行了研究。本文提出了基于视觉选择的视觉对话方法,该方法主要考虑到视觉对话中的每个问答阶段都只关注于图像中的部分区域,因此对图像中相关区域进行选择可以帮助提高视觉对话中问题回答的准确性。该方法主要包括三个模块,其中,视觉特征提取模块对图像中有意义的物体(区域)特征进行提取;视觉选择模块基于对话历史和当前问题形成语义指导,并根据语义指导对与当前问题相关的物体(区域)中的视觉信息进行选择,在这一模块,我们提出了三种不同的语义指导生成方法以及三种视觉特征选择方法并比较了不同方法的有效性;多模态融合模块将最终的视觉特征、问题特征以及对话历史特征进行融合,并与所有候选答案特征计算相似度,相似度最高的候选答案作为预测答案。本文还提出了基于多层次注意力机制的视觉对话方法,同时关注了对话历史、问题和图像的高水平信息和低水平信息。该方法主要包括四个模块,其中,特征提取模块对图像特征、问题特征以及对话历史特征进行提取;低层次注意力模块利用对话历史和当前问题文本中单词之间的关系对文本单词的特征表示进行补充,并利用图像中物体(区域)之间的关系对物体(区域)的特征进行补充;(3)高层次注意力模块对对话历史和当前问题文本中重要单词进行选择,并根据当前问题对图像中相关物体(区域)进行选择;多模态融合模块融合了多种特征并将融合后的特征与所有候选答案特征计算相似度,相似度最高的候选答案作为预测答案。
其他文献
扫频光学相干层析成像技术(Swept Source-Optical Coherence Tomography,SS-OCT),利用样品组织的背向散射光与参考光之间的低相干干涉,对光谱信号进行反傅里叶变换实现图像深度信息的重构,具有微米级高分辨率、高信噪比、瞬时成像以及非接触式成像等特点,广泛应用于眼科学的临床诊断中,以实现活体眼的快速无创成像。本文探究了扫频OCT的成像原理及其在眼科临床诊疗中的应
全球疾病负担研究表明心脑血管疾病约占疾病总死亡人数的32%,是全球第一大死亡原因。血管内光学相干成像(intravascular optical coherence tomography,IVOCT)系统以其分辨率高、灵敏度高、可实现血管内成像,并能清晰显示动脉粥样硬化斑块的结构特征、组织特征、甚至细胞特征,获得了心脑血管介入医学临床上的广泛应用。但目前IVOCT还是仅能提供血管和斑块的散射强度成
现代工业中,复杂环境下的小尺寸零件的缺陷检测日益受到人们的关注,内窥镜检测作为无损检测的一个分支,可以在复杂环境下对人眼不能直接观察到的地方进行检测,在工程建筑、汽车检修、机械检修等方面均得到广泛使用。本文设计并实现了一款用于小孔径管道零件内壁检测的工业内窥镜系统,具体工作内容如下:1、分析国内外内窥镜的发展现状,确定小型工业内窥镜的设计以硬管式内窥镜为基础,使用CMOS图像传感器代替传统目镜,让
图像语义分割是指根据语义信息,对图像中每个像素点进行分类标注的技术。它是一个计算机视觉领域的基础研究课题,它对于场景理解和环境感知具有重要的意义。然而,语义分割模型的训练需要大量可靠有效的数据集,并且语义分割图像逐像素标注需要耗费大量的时间和人力。为了解决有效数据集不足和样本标注耗时耗力的问题,本文利用主动学习算法从未标注数据集中选择更有意义的样本进行标注,构造可靠有效的数据集。为了更好的实现语义
近些年来,信息作为一种重要的战略资源在新一轮信息化革命和国际竞争中的地位和作用越来越重要。但是,随之而来的信息安全问题也日益凸显。公钥密码作为广泛应用的密码体制之一,其安全性已经成为工业界和学术界研究的重点。对已有加密算法的攻击,可以帮助我们分析算法的安全性,了解已有加密算法缺陷,采取防护措施。本文针对盲化后的密码算法提出了一种水平侧信道攻击,该方法基于聚类算法,仅用单一曲线进行密钥恢复。然而单一
显微CT(Micro-Computed Tomography,Micro-CT)以其无损检测、高分辨成像、微米级测量等优点被广泛应用于微电子、材料化学、石油地质等研究领域。在显微CT进行尺寸测量时,重建图像的质量、体素大小与数量的准确是保证有效测量结果的关键。理想的系统几何位姿是显微CT成像的基础,然而仪器设备的安装定位几何参数可能存在偏差,导致重建图像质量下降。同时,显微CT系统主要硬件位于铅制
光谱成像技术能够同时获取在体组织的结构与谱域信息,具有分辨率高、成像范围广以及信息丰富等优势,在生物医学领域应用广泛。在在体组织检测及成像中,结构紧凑、成像速度快、低成本的成像系统是扩展光谱成像技术应用的关键。本文搭建了基于窄带滤光片以及光谱重构方法的多光谱成像系统,并通过蒙特卡洛模拟、仿体实验以及在体组织实验对其可行性和有效性进行了综合研究。首先,介绍了多光谱成像技术的成像原理,选取特定的窄带滤
畜禽废水已成为农村一个主要的面源污染来源,针对这种污染现状,近年来出现了许多废水处理方法。在概括分析了畜禽废水的研究现状后,提出了人工湿地处理技术。通过对人工湿地研究现状的综述,阐述了人工湿地在净化污染物方面的研究进展。并通过对人工湿地在畜禽养殖废水处理中应用的介绍,分析了人工湿地存在的优势和问题,提出了人工湿地在畜禽养殖废水处理中具有广阔的应用前景。
在计算机视觉领域,语义分割是一项十分基本和重要的任务。随着计算机硬件性能,尤其是GPU用于数值计算技术的不断进步,深度学习得以不断发展。全卷积神经网络的出现,使得基于深度学习的语义分割方法取得快速地发展,然而基于视频数据的分割方法获得了较少的关注。视频数据相比于图片数据,多了一维时间序列信息,如何更有效地利用该信息对科研人员提出了挑战。另外,对于智能决策系统来讲,预测未来的能力对于决策来讲具有现实
多层次时间序列指的是由加和关系限制的一组时间序列。多层次预测被广泛应用在电力需求预测、旅游业数量预测以及商业税收预测等统计学、经济学领域。现有的多层次预测方法通常基于一种“两步法”策略。首先,对层次结构中所有的时间序列单独进行预测,然后,采用不同的调和预测算法使其满足加和一致性的限制条件。然而,“两步法”不仅计算复杂度高,而且无法确保所有时间序列的预测是整体最优的。为了解决上述问题,本文从多任务学