基于深度学习的无锚框时序行为检测方法

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:bigcat8194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时序行为检测旨在检测视频中的行为,不仅需要精确定位行为的起止点,还要为其预测正确的类别。时序行为检测任务是高层自动视频内容理解任务的基础,具有重要的学术研究意义以及应用价值。目前,时序行为检测任务的难点主要体现在三个方面:(1)大部分研究工作采用基于锚框的检测方法,通过预定义锚框覆盖可能包含行为的区域,存在计算量大且不灵活的问题;(2)时序信息在视频行为检测中非常重要,但传统的卷积形式并不能充分捕捉特征中的时序信息,容易造成时序节点之间缺乏长远依赖的问题;(3)视频中行为的跨度差异较大,单一特征图在检测过程中容易遗漏感受野之外的真实行为。针对上述问题,本文开展了以下研究:针对问题1和问题2,本文提出基于沙漏网络的无锚框时序行为检测方法。首先,该方法以预处理过的视频时空特征作为两个级联的沙漏网络的输入,通过上下采样捕捉视频中的细节以及语义信息,并采用中间监督的方式降低网络的训练难度。为了保持对时序信息的敏感性,该方法利用图注意力模块自适应学习时序节点之间的权重关系,优化初始特征。接着,通过类激活热力图分支选取行为中的关键点及其类别,以关键点组合的无锚框检测方法生成初始时序提议框。最后,通过词嵌入分支筛选初始时序提议框,优化时序提议框质量。针对问题1、问题2和问题3,本文提出基于金字塔结构的无锚框时序行为检测方法。首先,该方法设计了嵌入自注意力模块的金字塔结构模型,与传统的特征金字塔结构相比,其在下采样的特征之间嵌入自注意力模块。针对不同感受野的特征,自注意力模块能迭代捕捉不同的时序信息,不断优化目标特征。然后,利用不同感受野的特征来建模多尺度类激活热力图,每一个类激活热力图单独训练,提取行为中的关键点和类别后生成初始时序提议框。最后,同一个尺度的时序提议框会通过该尺度的词嵌入模块进行优化筛选。本文提出的创新型方法在经典的视频时序行为检测数据集THUMOS’14和Activity Net-1.3中进行了实验。其中在THUMOS’14数据集中,上述两个方法相较于目前结果最好的方法在m AP@0.5上分别提升了3.9以及3.6个百分点,充分验证了本文方法的有效性。
其他文献
近年来,随着产业结构的不断转型升级,我国的经济实力实现了快速平稳增长,居民可支配收入水平也随之逐步提升。但金融业发展仍不成熟,存在法律法规不健全、各区域发展不平衡等现象,而家庭作为参与经济活动的基本构成单位,在金融产品消费中扮演不可或缺的角色。我国居民家庭的可支配收入主要以现金、银行定期或活期存款等为主,家庭资产得不到保值以及增值,从而使家庭获得的财产性收入较少。基于此背景,研究区域异质性下的居民
学位
面对目前全球气温持续上升的现实背景,减少二氧化碳排放是当今世界的一个重要议题。自2007年以来,中国成为世界最大碳排放国,为积极承担节能减排、低碳发展的国际责任,中国政府结合自身发展情况也相继出台了众多政策。2009年,中国在哥本哈根气候大会上作出2020年碳强度较2005年下降40%-45%的承诺。随后于2014年,中国又进一步作出2030年碳强度较2005年下降60%-65%并于2030年前实
学位
民为国基,谷为民命,粮食是人类最基本的生存保障和民生需求。新中国成立后,中国始终把解决人民吃饭问题作为国家长治久安的首要任务。目前我国已经实现了由“吃不饱”到“吃得饱”,并且“吃得好”的历史性转变。但目前我国粮食产量增加更多的是依靠农药、化肥、农用机械等现代农业生产要素投入,高投入、高产出的同时也带来了高排放,在一定程度上影响了农业生态系统平衡。《自然-食品》发布最新研究报告显示粮食系统温室气体排
学位
近年来,随着5G移动网络、物联网、人工智能等技术的高速发展,数据呈现爆炸式地增长,催生出了越来越多的数据密集型应用,如视频流分析、增强现实等。大量的数据密集型应用具有计算需求大且实时性要求高的特点,对现有的云计算模式带来了新的挑战。然而通过将数据密集型应用部署到移动边缘计算环境下,可以降低数据密集型应用处理用户任务的响应时间,以满足任务低延时的需求。但是用户日益提高的服务质量要求与有限的边缘服务器
学位
5G、智能手机和互联网技术的飞速发展使得网络视频平台成为青年获取消息的主要渠道之一。各种视频平台发布的内容也因此对青年的世界观、人生观、价值观有着重要的影响。作为网络视频平台之一的B站,其社交属性、个性化推荐等特点使其成为青年之间流行的热门视频平台。因此,如何利用B站进行主流思想的正能量传播,如何更好地发挥平台的积极作用从而科学地引导青年,顺理成章地成为思想政治教育工作者需要认真思考和慎重对待的重
学位
单克隆抗体药物具有高特异性和低成本的优点,在药品研发领域有着广泛的应用,利用杂交瘤细胞可以大量的生产单克隆抗体。在杂交瘤生产流程中,必须对试管中的细胞进行定期筛选。传统的杂交瘤细胞筛选通过人工完成,存在着效率低下和容易发生主观性偏差等缺点。本文采用深度学习技术,提出了两种基于卷积神经网络的杂交瘤细胞图像分割算法,并且设计和完成了杂交瘤细胞图像自动分割系统,实现对细胞图像快速且精确的分割。通过大量的
学位
近年来,借助深度学习算法对医学影像中的细胞及组织进行识别和诊断的分析技术,逐渐成为了医学影像诊断领域的热门研究方向。卷积神经网络(Convolutional Neural Network,CNN)作为一种高效的深度学习算法,广泛应用于医学影像诊断领域。但由于CNN模型在训练前需要初始化参数,因此当初始参数选择不恰当时会带来各种问题。首先,对于CNN模型的初始权重,传统的方法是采用随机初始化,这样会
学位
工业视觉是智能制造的重要支撑,尤其是在自动化生产线中,工业视觉具备客观性、精确性、灵活性等优势。在自动化生产线中,与运动控制环节相比,输入的图像流会对视觉算法的时间造成波动,从而无法精准控制生产节拍。例如在印制电路板生产线上,由于裸板缺陷检测的时间难以掌控,只能给每一块裸板预留相同的上限时间,降低了生产线的时间效率。针对这一问题,本文围绕自动光学检测平台展开研究,以自动光学检测平台大量的视觉代码块
学位
视觉系统是一个复杂的信息处理系统,它的资源十分有限,这就决定了视觉注意在同一时刻只能选择性地加工外界环境中很少一部分的信息,因此需要一种有效的机制从信息冗余的外界环境中精准地找到目标刺激,以提高认知加工的效率。其中,视觉注意的控制机制在这一过程中发挥了不可忽视的作用。本研究想要探索的是视觉工作记忆对视觉注意的引导作用,这是研究者们近期提出的一种自上而下的视觉注意控制机制。有许多研究者认为视觉注意可
学位
职业生涯规划包括了对职业的定位,人生目标的设定以及如何实现自己目标的道路,是对人生道路进行整体性规划的过程。职业定位作为职业生涯规划的起点,对职业生涯规划起到至关重要的作用。然而,不知道自己适合什么职业是大多数人所面临的一个问题。目前现有的职业推荐方法,大多存在大众化、片面化的问题,并没有结合用户本身特点,来进行合理有效的个性化推荐。因此,从分析用户特征开始,提出了一种融合多种测评结果的多模型用户
学位