【摘 要】
:
随着云计算和移动互联技术的发展,视频已成为信息的主要载体,并呈爆炸式增长。面对海量视频,如何自动、准确和高效地分析和理解视频中人类的动作是当前人工智能研究的热点。本文研究基于视频的时序动作定位与识别,旨在自动定位视频中动作片段的起止时间并识别动作类别,以排除背景对准确理解视频内容的干扰,为视频监控分析、视频检索、视频问答等下游任务提供支撑。然而,视频数据量大、维度高、内容复杂,基于视频的时序动作定
论文部分内容阅读
随着云计算和移动互联技术的发展,视频已成为信息的主要载体,并呈爆炸式增长。面对海量视频,如何自动、准确和高效地分析和理解视频中人类的动作是当前人工智能研究的热点。本文研究基于视频的时序动作定位与识别,旨在自动定位视频中动作片段的起止时间并识别动作类别,以排除背景对准确理解视频内容的干扰,为视频监控分析、视频检索、视频问答等下游任务提供支撑。然而,视频数据量大、维度高、内容复杂,基于视频的时序动作定位与识别存在以下几个难点:1)视频时序信息复杂,时序特征提取难,动作时序位置难以准确定位;2)视频的时空信息复杂,场景变化大且存在噪声干扰,动作特征难以提取;3)数据标注信息少,时序标注稀疏,模型难以训练;4)视频标注耗时费力,且标注结果带有主观性。围绕上述难点,本文以视频时序动作定位与识别中的高效特征提取和高效训练方法为研究重点,提出了一系列新方法,创新点和贡献包括以下几个方面:1)针对视频时序信息复杂,时序特征提取难的问题,提出了一种基于图卷积的时序动作定位与识别算法。基于视频内容的时序相关性,提出了利用动作候选片段间的相关关系实现高效的时序特征提取。设计了一种构建图的方法以建模候选片段间的关系,并在此基础上提出了一种基于图卷积的时序特征提取算法,充分利用视频的时序上下文信息以增强动作候选片段的时序特征。实验结果表明,该方法能有效建模并利用视频片段间的相关关系,同时显著提升时序动作定位与识别精度。2)针对现实应用场景中视频存在噪声/背景干扰,动作特征难以提取的问题,提出了一种基于声音和视频内容的时序动作定位与识别算法。本文提出了一种基于声音注意力机制的特征提取模块,利用视频的声音信号引导模型关注与动作相关的空间区域。提出了一种跨模态关系注意力模块,以进一步利用声音和视觉模态内、模态间的关系增强动作特征。在动作定位、音-视频事件定位等任务的实验结果表明,该方法能有效减小噪声/背景干扰,准确提取动作特征,最终提升时序动作识别精度。3)针对视频数据标注稀疏,标注信息少,模型难以训练的问题,本文提出了一种基于稠密回归机制的时序动作定位算法。在动作定位与识别任务上首次提出了基于稠密回归机制的时序边界回归方法,可在标注信息不变的情况下使正训练样本的数量显著增加,为如何从稀疏的标注数据中挖掘有效的监督信息提供了一个新的视角。在此基础上,提出了基于交并比(Intersection over Union,Io U)的回归模块,可为定位结果进行评估和校准,进一步提升时序定位的精度。实验结果表明,该方法相对于直接使用稀疏标注进行训练的算法,能有效挖掘更多的监督信息,显著提升算法训练效率和预测精度。4)针对视频数据标注过程耗时费力,且时序标注带有主观性的问题,本文提出了一种基于弱监督学习的时序动作定位与识别算法,实现了无动作时序标注的情况下,训练动作时序定位和识别模型。提出了一种基于对抗擦除机制的方法,在训练过程中迭代式地擦除带有显著动作特征的片段,有效解决了现有方法只能定位出视频中最显著动作片段问题。在此基础上,提出了一种类别重要性权重计算方法,可针对每类动作实现精准的定位。实验结果表明,该方法无需逐帧标注数据即可完成时序动作定位与识别,且取得了与基于监督学习方法相媲美的性能。
其他文献
“冰立方”由国家游泳中心“水立方”转换而成,是2022北京冬奥会冰壶比赛场馆。按奥组委和冰壶世界联合会要求,室内混响时间指标应不大于1.4s。但是,按声学理论,在不改变水立方独特内部视觉效果的前提下,难以达到该指标。经与奥组委和冰壶世界联合会协商,为符合赛道区域声学要求,更换采用了等效、但更优化的指标:语言传输指数STI≥0.5。经过计算机模拟分析,在赛道附近优选的位置处布置了一定数量的密胺吸声材
大数据应用所催生的虚拟空间的交往,需经企业收集、处理、使用个人信息而成立。在此过程中,个人与企业间不可避免地存在利益冲突。基于路径依赖,既成法律往往预设“私权神圣”立场,教条地适用目的限制原则,严格限制企业对个人信息的收集使用,把个人信息当作绝对利益加以保护。长远来看,拒绝将企业对个人信息的收集使用与个人信息保护做正当利益衡量,反而不利于技术进步与虚拟空间本身的发展。对《中华人民共和国个人信息保护
随着新课改的深入推进,运用现代化的教学方法丰富课堂教学,已经成为教育者的必然选择。由于数学学科的知识点较多、知识之间的内部联系复杂、思维缜密抽象,很多学生在学习的过程中都会出现思路模糊的情况,直接影响了学习效果。思维导图教学方法可以帮助学生梳理知识之间的逻辑关系,让思维可视化、知识深入化,切实有效地提升初中数学教学效果。因此,本文提出了运用思维导图的具体方法:建构整体知识结构,置学生于学习主体;提
职业教育是同社会经济发展需求和产业转型升级供给联系最为紧密的一种教育类型,肩负着培养技能型人才、促进就业创业、传承工匠精神的重任。职业教育助力技能型社会建设,有利于凸显职业教育类型特色、增强职业教育适应性、服务社会高质量发展、促进产教业融合和营造技能成才的社会氛围。从机制层面来看,职业教育要进一步深化改革,构建多元化办学机制,打造中高本贯通的人才培养机制以及校内外协同的社会服务机制,为助力技能型社
通过对SDN技术在广域网中的应用述评,分析基于SDN技术在应用过程中借助Overlay-VXLAN、SDN服务链以及流量可视化等关键技术实现网络方案的落地,并探讨其网络调优、网络虚拟化、配置灵活等发展方向,以期为相关研究提供借鉴。
选取400只体质健康的45周龄海赛克斯褐蛋鸡,采用单因子随机化设计,随机分为4组,每组100只。试验日粮在基础日粮的基础上分别添加乳能(20%胆汁酸)100、200、300mg/kg。以试验鸡谷胱甘肽过氧化物酶(GSH—Px)和超氧化物歧化酶(SOD)活性以及血清胆固醇、甘油三酯和游离脂肪酸作为血液生化检测指标,以产蛋率、总蛋重、平均蛋重、料蛋比作为生产性能指标,研究胆汁酸对蛋鸡生产性能和脂类代谢
随着雷达探测技术的快速发展,如何提高以发动机尾喷管为代表的高温部件的吸波性能一直是影响飞行器全向隐身的关键问题。其中,高温电性吸波涂层为了实现优异的衰减性能,其设计厚度往往较大。与之相比,高温磁性吸波涂层可在较低厚度的条件下实现宽频吸收,是高温隐身的理想技术手段之一。但需要注意的是,磁性吸波剂的介电常数一般大于其磁导率。因此,为实现大气界面的阻抗匹配,减少电磁波反射,高温磁性吸波涂层基体材料(粘结
食盐是人们日常生活中不可或缺的重要食品组分。然而,全球范围内高盐(钠)摄入是导致人类疾病和死亡最重要的膳食风险因素之一。因此,如何在保持食品感官品质的前提下降低加工食品中的盐含量是一个重大挑战。本论文以阿拉伯胶(Gum arabic,GA)、水溶性阿拉伯木聚糖(Water-extractable arabinoxylans,WEAX)以及柑橘纤维(Citrus fiber,CF)等食品胶为研究对象
近几年,随着非富勒烯受体材料的快速发展,有机太阳电池的能量转换效率快速提升;但是,目前器件中的阴极修饰基本上仍然使用以前针对富勒烯有机太阳电池发展的传统阴极修饰材料,没有针对非富勒烯受体材料的特点进行相应阴极修饰材料与器件界面工程的系统研究。在有机太阳电池快速发展的过程中,人们逐渐意识到器件的加工工艺和稳定性是有机光伏进一步商业化应用的重大挑战,其中传统界面材料的电子传输性能较低也不利于器件的整体
得益于新材料的不断开发以及工艺的改进,有机太阳能电池和钙钛矿太阳能电池这两大研究方向在近年来都获得了飞速的发展,小面积有机单节器件效率已经突破了18%,钙钛矿单节器件更是达到了25%以上。采用叠层结构可以弥补单节器件光响应范围不足并进一步提升器件效率。基于此,本文从材料的选择与工艺优化两方面来对叠层和集成结构进行优化,制备了高效的钙钛矿/有机叠层和集成器件并对其机理进行了初步研究。在第一部分工作中