基于图卷积与自注意力机制的视频描述方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:hzqifeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。视频描述需要将输入视频数据转换为描述该视频内容的自然语言描述输出,在视频摘要、助盲等领域有重要应用价值。如何让计算机像人类一样理解视频的内容并且能够准确无误的用语言表达出来,是一个尚未得到完美解决的难题。本文针对现有视频描述模型中存在的缺乏上下文信息、描述不准确等问题,以基于编码器-解码器框架的视频描述模型为基础,在高层语义与特征融合、图卷积与动态推理、自注意力机制等三个方面开展了研究,提出了相关改进方法。主要研究工作与成果如下:1.提出并实现了基于高层语义与特征融合的视频描述方法。该方法通过Res Net网络提取视频表观特征,I3D网络提取视频动态特征,Faster-RCNN网络提取视频对象特征,Bi-LSTM网络进行高层语义信息编码,最后通过注意力机制将不同特征融合得到视频描述模型的输入序列。实验结果表明,该方法能够优化视频描述模型的输入信息,提高了模型生成视频描述句子的准确性。2.提出并实现了基于图卷积与动态推理的视频描述方法。该方法通过图卷积网络学习视频特征的潜在语义信息,动态推理模块利用不同的特征动态生成视觉词。实验结果表明,该方法可以有效的提取视频潜在语义,生成视频描述,解决视频文本跨模态问题和受冗余信息影响的问题。3.提出并实现了基于SA+GRU的视频描述方法。该方法通过自注意机制的方法,提升模型的性能,GRU解码器提升计算效率,结合前文实现的方法,实现了基于SA+GRU的视频描述方法。实验结果表明,该方法提高了模型生成视频描述的准确度和计算效率。主要研究贡献:提出了基于高层语义与特征融合的方法,提高了模型输入的质量;提出了基于图卷积与动态推理的方法,使模型可以更好的利用不同的特征,消除了冗余信息的影响;提出基于SA+GRU的方法,一定程度上提高了模型对上下文信息的学习能力和计算效率,使模型生成视频描述更加准确。
其他文献
近年来,无线体域网(Wireless Body Area Network,WBAN)逐渐成为国际上重要的研究热点,并广泛应用于金融领域,医疗领域,通信领域等。特别是医疗领域,由于无线体域网需要传输与用户相关的生理特征数据,因此,如何保证用户的个人隐私是当下亟需研究的问题之一。此外,现有的无线体域网大部分基于中心化系统架构,该架构会导致单点故障等问题,因此,一个安全的系统架构对于医疗数据的安全性也很
学位
哑语是聋哑人群体在日常生活中主要交流方式之一,在聋哑人群体间扮演着重要的角色。随着深度学习的快速发展,越来越多的学者致力于哑语识别技术研究,来解决聋哑人之间及聋哑人与正常人之间交流困难的问题。然而关于动态哑语识别领域仍然有一些问题尚待解决。(1)哑语单词是通过一系列复杂变化的手势来描述,这些手势之间具有相似性并存在一定的冗余;而且目前主流的哑语识别网络模型的参数量很庞大,导致模型很复杂,难以实现轻
学位
随着大数据时代发展,产生了海量多类型、低密度、高维度、结构复杂的数据,当中有一类数据引起广泛关注——多标签数据。目前许多分类算法是处理单标签分类,而对于多标签的样本数据,则须利用多标签分类算法,解决多标签样本数据的分类问题以及排序问题。本文综合应用了标签与标签之间相关性优化策略、拉普拉斯矩阵正则化策略和基于非负矩阵分解的损失函数合理性策略,研究提出了基于拉普拉斯正则化极限学习机的多标签分类算法(M
学位
交警通过数据平台进行非现场执法符合建设智慧政府的号召和“互联网+监管”的应用需求,公安机关应积极推行。但是,其面临法律制度缺失和公正性不足等困境,亟待破解。为此,应尽快完善相关法律制度,规范交警非现场执法行为,建设交警执法办案审查中心,提升执法效率和执法公信力。
期刊
测量血压是日常体检或筛查中重要的检查内容之一,通常对某上臂的血压进行测量,得到读数后作为人体血压的测量结果具有随机性。实际上人体存在双臂血压差异,部分人群的臂间血压差异(IDA)较大,现行的国际血压测量指南建议测量双臂血压,一般是利用血压计先检查一侧胳膊,再测量另一侧胳膊,由于时间限制基本上不这样做。同时在测量的过程中存在不规范操作导致的人为误差,是影响诊室血压测量准确性的重要因素之一。基于以上所
学位
目前,国内很多社会服务企业(通信、供电、燃气、供水等),其收费方式都属于后付费类型。对于这些企业,如何减少欠费、降低成本、提高效益,同时还要差异处理、慎重催缴以保证客户感知、避免用户流失,是急需解决的重要问题。为此,就需要提前预测潜在的欠费客户,予以分类处理。然而,现有的欠费预测模型存在分类性能差、稳定性低且泛化能力有待改进等不足。本文主要工作就是针对上述不足,应用电信客户欠费数据,研究构建了基于
学位
规范执法是公安工作的生命线,通过非现场执法装备合法合规收集、固定道路交通违法行为是公安交管部门规范执法的重要内容之一。近些年,在科技强警等政策支撑下,各地广泛开展交通技术监控设备建设,助力事故预防、秩序管控、违法查处等工作。本文对公安交管非现场执法装备的技术发展需求和技术发展趋势进行研究,从执法装备的角度,对进一步提升公安交管非现场执法的规范化有参考价值。
期刊
随着信息技术的迅速发展,人们获取数据变得越来越容易。由于数据本身存在粗糙、模糊和不确定性的问题,使得要想在结构复杂、动态变化的海量数据中寻找有用的知识信息变得更加困难。而聚类集成是近年来数据挖掘领域发现未标记数据集中隐藏信息的流行方法之一。它借鉴集成学习的思想,首先通过多种不同类型的单一聚类算法或者改变同一聚类算法的初始参数生成基聚类集合,然后使用融合函数获得比单一聚类算法更鲁棒更有效的结果。研究
学位
通过分析海事非现场执法中电子监控证据应用现状,指出了其在设备性能、应用推广、程序规范等方面的局限性。借鉴道路交通“电子眼”司法实践,预测了海事行政处罚中电子监控证据涉及主体适格、证明力、无主观过错免罚方面面临的诉讼风险,并从设备、制度、程序等方面为今后电子监控证据在海事非现场执法中规范化应用提出建议。
期刊
随着人民群众对城市综合管理服务的要求日益提高,如何贯彻好“城市管理应该像绣花一样精细”的理念、做好以“绣花功夫”破解城管难题这项工作成为城市综合治理的重点课题。研究探索实现城市管理要素、城市管理过程、城市管理决策等全方位智慧化的城市管理新模式,将AI技术引入城市综合管理非现场执法环节,充分利用前端监管设备、通过大数据、云计算、图像识别等技术及时发现并处置各类涉城市管理的违法问题,探索建立了“前端及
期刊