基于文本的行人搜索算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:aaron209
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于文本的行人搜索技术是根据行人文本描述从图像库中匹配目标行人。行人搜索在实际应用中,会面临目标行人查询图像难以获取的问题。因此基于文本的行人搜索可以根据目击者的口头描述进行搜寻。与基于图像的行人搜索相比,它的方式更加灵活和人性化,因此成为学术界新的研究热点问题。该任务与跨模态检索任务类似,都是通过文本检索出相关图像。但是基于文本的行人搜索面临行人图像分辨率低,行人之间类间差别小等挑战,因此必须学习具有细粒度的跨模态特征融合来区别视觉文本间的线索,从而达到更加细粒度的特征匹配。针对该任务的难点问题,本文主要完成了以下两方面的工作:(1)本文提出了基于语义共同注意的增强属性对齐网络。语义共同注意机制由深度级联的自我注意模块和关系注意模块组成。自我注意模块分别以视觉属性特征和文本特征作为输入,学习单个模态的内部依赖关系。然后将自我注意的视觉属性特征和文本特征输入到关系注意模块中,学习更加细粒度的视觉属性特征,在语义共同注意机制的帮助下,该模型在基于文本的行人搜索标准数据集CUHKPEDES上Rank-1达到了55.57%的准确率,在粗略的全局对齐框架下强化了局部到局部之间的属性对齐。(2)针对局部属性对齐无法实现全局的高级抽象语义对齐的问题,本文提出了上下文关系对齐网络模型。具体一点说,使用预定义的局部对齐思维定势掩盖了图像和文本之间隐藏的高级语义对齐,这种对齐方式实质上将对齐效果限制在了一定的范围之内。为此本文提出上下文关系对齐网络去总结每一个模态内的上下文关系,从而实现模态间的上下文关系对齐。该网络通过上下文强化注意机制来组成模态内编码器和模态间编码器,一般的注意力机制根据query和key之间的关系得到注意分布,即使key中存在一些与query无关的信息,也会得到一个较小的注意值,一定程度上分散了注意力。基于该问题在上下文强化注意机制中加入门函数,去除冗余信息,从而更加关注与查询上下文相关的信息,当以文本上下文为查询的图像注意区域和以图像上下文为查询的文本注意区域两者高度相关,则实现了上下文关系的一一对应。最后在CUHK-PEDES数据集上取得了61.76%的准确率,验证了该模型的有效性。
其他文献
在人工智能的高速发展下,人们对计算机多模态领域理解能力有更高的要求。面对复杂的现实场景以及背后运行的常识逻辑,计算机需要更高层次的视觉语言理解能力和逻辑推理能力。视觉常识推理(Visual Commonsense Reasoning,VCR)任务是引导模型进行视觉和语言领域任务更高层次的认知水平理解。其中包括三个子任务,即通过问题(Question)预测答案(Answering)Q→A,通过问题和
学位
冷启动问题是推荐系统中长期存在的难题,新用户或新产品出现时,要求在没有历史交互记录的情况下进行个性化推荐。基于协同过滤的推荐算法广泛部署于各类在线平台,而新用户或新产品没有协同信息,因此精准的推测新用户偏好以及表征新产品变得更加困难。鉴于属性信息在大多数在线平台中可获取,传统的冷启动推荐算法通过学习协同信号表征空间和属性表征空间之间的联系来提升性能,但仍然存在一些问题:(1)传统的冷启动推荐方法简
学位
零样本学习是通过学习已知类视觉特征和语义属性向量之间的关系,并借助语义空间作为辅助信息将这个关系扩展到未知类数据集上,从而实现对未知类样本识别的一项研究。一个良好的零样本学习模型可以充分利用已知类到未知类之间的迁移知识,极大的减轻深度学习对带标签数据集的过度依赖,同时可以促进人工智能领域向终生学习发展。所以,零样本学习是一个具有现实意义和研究价值的课题。目前,实现零样本学习任务最常用的方法有基于特
学位
阿尔兹海默症已经成为危害老年人健康的一大因素,受到了广泛的关注。该疾病不仅给患者带来痛苦,还给其家庭以及社会带来沉重的负担。同时,该疾病病因尚不明确,发病缓慢不易发觉,目前还没有非常有效的治疗方案,一旦待到晚期阶段再被确诊便无法有效干预。所以,及时准确地诊断出阿尔兹海默症具有重要意义。近年来,借助机器学习技术来辅助医生进行阿尔兹海默症病情分析和诊断,这一思路逐渐受到认可和关注。但脑影像等数据往往受
学位
由于我国地形错综发展,架空输电线路大量穿越高山峻岭、戈壁峡谷、草原荒漠和盐碱地等自然条件复杂的无人区域,这些区域不仅容易发生滑坡、泥石流等地质灾害,而且容易发生覆冰、洪汛等气象灾害,严重影响架空输电线路的运行。目前,无人区输电线路状态监测的传输问题主要体现在两方面:一方面无人区的地形地貌不适合大量铺设通讯基站,数据难以通过4G/5G蜂窝网络传输;另一方面,目前主流的局域组网技术大多基于2.4GHz
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动式有源微波遥感系统,可以实现全天时、全天候的高分辨率成像。但在实际雷达成像中,SAR系统经常遭受复杂的电磁干扰,为了保护目标免受侦察,针对SAR系统设计了许多干扰方法,例如压制性干扰和欺骗性干扰。当前抗压制性干扰技术比较成熟,而欺骗性干扰由于其高保真、强隐蔽性的特性,对干扰的识别和抑制难度较大,如何采取有效措施对抗欺
学位
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种高分辨率雷达,能够在能见度极低的恶劣气象条件下获取高分辨率图像,是现代化战争中取胜的关键因素。基于SAR的目标检测识别技术被广泛应用于军事领域,且已成为各国竞相研究的重要任务。因此,开展复杂环境下SAR图像目标检测识别关键技术的研究具有重要意义。在复杂环境下,由于其中各种干扰因素的影响,现有的SAR图像目标检测识别技术
学位
近年来,人工智能的兴起促进了移动机器人领域的发展。目前,随着家庭、医院、工厂等社会领域对机器人的需求量逐步扩大,这对移动机器人的工作效率、可靠性等方面提出了更高要求。移动机器人作为一种重要的生产工具,常需要从一个目标点移动到另一个目标点,而目标点之间可能会存在障碍物,因此设计快速有效的路径规划算法可提高移动机器人的工作效率。然而基于随机采样的路径规划算法普遍存在着效率低、抗干扰能力差等问题。针对以
学位
心率是人体重要的生理参数,对心率的实时准确检测在各行各业均有着广泛的应用。传统的心率检测方法包括心电图(Electrocardiogram,ECG)检测法和成像式光电容积描记(Photo-plethysmography,PPG)检测法,这些方法需接触人体,成本高,操作难度大。近年来,基于图像光电容积描记(Image Photo-plethysmography,IPPG)的心率检测成为热潮,这种技术
学位
以“大智移云”为特征的新一代信息技术的快速发展,给交通管理的信息化、智能化和科学化提供了新的机遇和挑战。国家《交通强国建设纲要》、《“十四五”现代综合交通运输体系发展规划》、《数字交通“十四五”发展规划》中明确提出,要利用大数据、人工智能、机器学习等新一代信息技术提升交通安全应急保障能力,强化交通应急救援能力。对受损路网进行合理的修复以快速打通救援生命线,保障救援队伍和应急物资能够及时输送到各需求
学位