基于自然语言描述的行人检索研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wujun33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于自然语言描述的行人图像检索研究指的是给出一段自然语言形式的文本描述,从行人图像数据库中检索出与文本描述最相符合的行人图像。随着卷积神经网络和循环神经网络的快速发展,计算机已经具备高效提取图像与文本特征的能力。然而,仅仅提高视觉模型或者文本模型的特征提取能力对基于文本的行人图像检索研究的性能提升收效甚微。由于图像和文本特征分属于不同模态,如何减小不同模态之间的语义鸿沟成为提高基于文本的行人图像检索任务性能的关键。本文借鉴度量学习的思路,提出了一种能够融合文本和图像特征为一个新特征的方法并借助图像文本融合特征尝试在Softmax函数的基础上构建一个损失函数。该损失函数有助于在模型训练的过程中,增大同类文本图像特征对相似度的同时,不断减小不同类别的文本图像特征对的相似度。这就使得模型具有能够提取模态不变性的行人特征能力。此外,数据集中存在着样本不均衡的现象,即匹配文本图像对的数量远少于不匹配图像对的数量。这对模型性能会有消极影响。研究发现,图像文本对中存在着一些属于同一类别却具有较小的相似度,或者属于不同类别却具有较大相似度的图像文本对。针对这种现象,本文提出一种对不同图像文本对的赋权方法,该方法尝试在训练过程中为上述图像文本对赋予更大权重,以提高模型训练效率以及性能。本文的所提出的方法均在公开数据集CUHK-PEDES上做了验证实验并且证明了有效性。与该领域其他算法相比,本文所提出的方法在模型复杂度,可行性方面具有较强竞争力。
其他文献
将人工智能应用于教育领域,实现计算机对数学问题的智能解答,做出一款数学推理系统,一直是自动推理方向的热点问题。一些机构和学者们也尝试设计出一些基于知识库、推理引擎或者模式匹配的专家系统来实现数学题目智能求解;近些年来,机器学习技术也被应用到了数学推理系统的研究中。随着人工智能技术的快速发展,自动推理领域也不断在推陈出新。与此同时,知识图谱技术和深度学习技术发展迅速,其在知识推理上有着重大的优势,已
二次约束二次规划问题及其锥重组问题具有相同的最优值,且其锥重组问题是一个非负二次函数锥规划问题,所以如何有效的求解非负二次函数锥规划问题值得人们进行深入的研究。自然而然的,我们需要探讨非负二次函数锥的可计算性。本文列举了在一个椭球区域上的非负二次函数锥(cone of nonnegativequadratic functions),在一个椭球及一个线性不等式区域上的非负二次函数锥和在一个二阶锥区域
随着计算机相关技术的迅速发展,医疗领域开始广泛运用计算机相关技术来提高医疗服务水平,包括医疗信息管理、临床疾病辅助诊断等。此外,医疗信息化的快速发展,使得医疗信息系统中积累了大量的医疗数据。深度学习算法能从大量的数据中学习出数据的抽象特征,这些特征可以用作对目标进行分类和识别,其有效性已在很多实际应用中得到验证,其中不乏在医学方面的应用。如何将深度学习方法应用于医疗数据,建立分析模型,是当前医疗数
减员与增效,本来就是一对难以调和的矛盾,更何况是在业务繁忙、事无巨细的一线供电所。化解供电所被动减员与提质增效的矛盾,不仅仅考验着制度设计者的构建力,更考验着一线管理者的智慧力。供电所结构性缺员与老龄化问题积弊已久,特别是在农电员工“退休潮”汹涌而来的近两年,如何在现有条件下,重整供电所人财物资源,采取积极有效的管理措施化解被动减员与增效的矛盾,是绝大多数基层供电企业管理者面临的一道难题,也
期刊
本文是对图像复原中的去雾算法这个领域做了一系列的研究探索。简单来说,本文首先介绍了结合神经元注意机制(Neuron Attention,NA)的更迭去雾网络所使用到的一些关键算法与模块。其次介绍了关于双向长短期记忆网络(Bi-LSTM)的基本构架。最后介绍了关于神经元注意力机制的基本结构,以及其所采用的深度和点卷积的运算过程。NA模块是在通道注意力机制的基础之上发展而来的,可以通过模拟神经元之间的
随着智慧教育的不断发展,自动判卷已经成为未来的一种趋势,而作为智慧教育的入口,OCR识别也越来越受到研究者们的重视。其中作为OCR识别系统中的手写体数学公式识别一直因为其复杂多样的二维结构,导致其研究进展缓慢。本文以数学公式的二维结构为着手点研究数学公式的识别,并进一步研究表达式一致性判别的相关问题,最终构建了一个初中数学填空题自动判卷系统。其主要研究内容如下:对于数学公式识别,本文采用编码器-解
行人重识别是在图像库中检索与查询图像具有相同身份的行人图像。目前,行人重识别在智慧城市、刑侦取证、社会安全等领域有着广泛应用。然而,行人重识别需要依赖大规模的有标记的数据集来训练模型,而数据标注的高成本使得基于监督学习的方法难以扩展到现实应用中。因此,如果能在不使用数据标注的情况下,将在其他数据集中训练的模型直接迁移到新的数据集中,将会对极大促进行人重识别技术的商业化进展。本文借助域适应、影响函数
地表上行长波辐射是反映地球表面冷暖状况的指标,是地表辐射收支的关键变量之一。在已有地表上行长波辐射产品的估算算法中,地表均被假设为朗伯体,对地表热辐射方向性的回避会给地表长波上行辐射的估算带来很大的误差。对同一地物进行多角度准同步观测是解决热辐射方向性最直接最有效的方法,然而,目前在卫星尺度只有ATSR系列传感器可以提供两个角度(0°和前向55°)的准同步观测。两个角度不足以驱动热辐射方向性核驱动
湘西土家族摆手舞源远流长,是土家族传统文化的重要内容,在各种节日庆典中发挥着重要作用。虽然湘西土家族摆手舞在当地受到部分人的高度关注,但是在传承发展方面却面临着困境,亟待寻求多条路径予以优化解决。本文立足于舞蹈教育层面,在简要介绍湘西土家族摆手舞的基础上,明确了传承和发展湘西土家族摆手舞的重要性,并重点探讨了如何在舞蹈教育过程中传承和发展摆手舞,希望相关举措具备参考借鉴作用。
随着知识经济时代的到来,知识在生产生活中发挥着越来越重要的作用,为了让知识流动起来消除“信息孤岛”现象,基于区块链的知识共享技术已经成为了当前研究重点。在知识共享环境中共享网络通常地域分布广阔,网络状况复杂并且对工作效率和安全性要求较高。但是由于当前区块链共识算法大多基于同步或半同步网络假设,相应的设计难以应对网络延迟类攻击,并且不能同时保证可伸缩性和安全性,使得基于区块链的知识共享技术难以在应用