基于词性标注与注意力机制的视频密集事件描述算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jiaoyang_204
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着高清视频监控的逐步推广普及、短视频社交软件及直播软件的火爆发展,使得视频数据爆炸式上升。而怎样分析这些海量视频数据,从中得到关键的特征信息,逐渐成为视觉智能分析方向上的一个研究重点。比如:政府有关部门能够分析视频监控录像来得到人物的行为特征信息;视频审核人员通过视频描述能够快速的审核视频内容。因此研究该问题对智能视频分析的发展有重大的意义。视频密集事件描述指的是针对输入的视频,找出其中所包含的时序动作,包括动作的起始与结束时刻,并对这些时序动作进行自然语言描述。研究的问题包括两个方面,一是时序动作生成,即准确的得到视频中所包含动作的起始与终止时间。二是视频描述,即针对视频中的时序动作进行描述。目前的时序动作生成算法仅考虑到视频的单向传播的特点,未能有效的结合视频的反向特征,使得产生的时序动作召回率低。同时视频描述算法未能充分融合视频特征及时序动作特征生成一个动态的视频特征,并忽略了单词的词性标注时序特征信息,使得生成的自然语句准确性不高。为了解决以上挑战,提出了一种基于词性标注与注意力机制的视频密集事件描述算法(Dense Video Captioning Based on POS andAttention,PosA_DVC)。其中针对时序动作生成,提出基于注意力机制的双向单流动作提议算法(Bidirectional SingleStream TemporalAction Proposals Based onAttention,BiA_SST),通过两个时序网络模型来得到时序动作的前向特征与反向特征,同时使用注意力机制来融合这两项特征,最终提高时序动作的召回率。针对视频描述生成,本文使用注意力机制来融合视频特征、动作特征得到动态视频特征,并结合单词标注信息,生成单词标注时序特征,最后结合单词标注时序特征、动态视频特征、单词特征来动态生成对应的自然语句描述,以此提高描述准确性。最后在THUMOS-14,Activity Net Caption视频数据集上分别对BiA_SST,PosA_DVC算法进行了实验,并对实验结果进行分析,最后与相关算法进行对比,从而体现BiA_SST,PosA_DVC算法的可行性。
其他文献
由于云计算技术的快速发展,信息产业的商业模式也发生了巨大的改变,数据库外包逐渐成为数据管理的新范式。将数据外包到第三方云服务提供商,不仅能够在很大程度上降低企业和个人的成本和计算负担,而且可以提高资源的使用率。然而,第三方云服务提供商并不完全可信,数据在外包存储、管理和对外提供服务的过程中面临泄露、篡改的风险,这使得数据查询结果不可靠。数据库外包所带来的安全和隐私方面的问题已经成为外包数据库更广泛
随着科学技术的高速发展,学术信息爆炸式增长,相当多的学术网站不断涌现。这类学术网站主要关注学者的研究领域、学者间的合作关系等,为人员合作和科研合作奠定基础。由于学术型网站的内容主要是学术论文,如何从论文中抽取属性并进行推理分析是需要解决的关键问题。根据异构学术网络的特点,基于机器学习构建了合作关系预测模型。整个模型包括以下部分:首先,针对异构学术网络丰富的语义信息特点,设计了基于元路径的结构特征抽
移动互联网、物联网、云计算等技术的发展和运用,推动了线上医疗行业的发展。云环境下医疗大数据不仅提高了医疗咨询的精准度,而且打破了地域的限制,给患者就诊带来了便捷。一方面,由于医疗大数据云端存储,云服务器的安全无法保障,另一方面,医疗数据具有很大的研究价值,数据发布必不可少,系统中包含大量患者隐私信息,因此研究如何保护医疗数据保密性以及隐私性有重要的意义。通过现有方案的研究与分析,提出了一种基于云环
随着大数据的盛行以及分布式计算技术的逐渐成熟,运用分布式技术来进行数据的高效分析已成为了各企业的研究热点。近年来,随着内存计算的不断发展,Spark被广泛应用于大数据处理领域。Spark中的任务调度器决定了任务的数据分配以及任务执行路线,能够直接影响整个集群的执行效率。因此,开展对Spark任务调度器的优化研究能够提高Spark集群的性能。分析了目前Spark任务调度器未充分考虑洗牌(Shuffl
直播频道推荐方法是为满足直播观众的个性化观看需求、直播频道或直播平台的利益需求,然而当前直播频道推荐方法仅根据观看这种行为而针对观众的偏好进行分析,忽视了一些不可避免的噪音数据对推荐结果的影响,并且面对庞大且稀疏的真实数据不能保证较快的训练速度以及较优的推荐结果。因此,如何挖掘观众的潜在偏好表达,设计一个结果精度和实用性更高的直播频道推荐方法具有理论和实际意义。为解决现有的直播频道推荐方法对观众偏
随着我国高速公路规模逐年递增,路面养护投资金额也越来越大,传统的养护模式已经无法满足高速公路养护的快速需求,因此需要一种高速公路智能养护系统来帮助养护工作者提高工作效率,使得养护工作能够更加科学合理。由于我国高速公路信息化建设的起步较欧美国家晚很多,虽然发展至今已经有了将近30年的历史,也有了比较大的成就,但还有一些问题没有解决,主要体现在以下几个方面:(1)检测数据的处理和分析能力;(2)养护决
目前,我国的政府职能正朝着服务型的方向转变,国家提出“互联网+政务服务”的模式,意在提高政府的服务能力,让人民群众少跑腿、好办事。武汉市推出的“电子证照卡包”建设方案就是“互联网+政务服务”改革下的产物。该方案集成所有相关的“证、照、卡”,为个人或企业提供可信赖的线上认证服务。电子证照卡包建设方案涉及的政府部门众多,现阶段还存在政府部门之间数据信息共享不充分、数据安全管控能力较弱的问题。针对以上问
Uber和滴滴等共享出行平台在当今的公共出行中扮演着越来越重要的位置,这不仅源于它们庞大的市场份额和服务量更在于它们提供的服务具有层次性和多样性能适应大众的需求。时至今日滴滴APP内提供的服务类型已有十多项,在用户开启APP时平台会首页推荐并展示其中一项服务的服务页面,最初的首页推荐策略是用户“最近一次使用的服务”,随着平台产品增长和用户使用习惯场景化,该方案已无法适应当前需求。据统计,滴滴平台内
互联网技术发展迅猛,带给人们极大便利的同时,也给人们带来了不便和挑战,由于数据量的迅猛上涨,人们发现获取自己想要的信息的难度在变大。知识图谱可以将世间万物的信息和关系进行表示,由于这些海量数据之间存在着关联,可以形成高质量的、关联明显的、信息直观的知识。这种图谱形式不仅便于人们的理解,同时更加方便了计算机的理解和处理,从而可以方便人们获取信息,知识图谱也就成为了众多学者关注的热点。然而海量数据中存
铣削加工是工业生产中重要零部件的加工方式之一,铣削加工过程中会产生切削热,当温度过高时会导致刀具磨损加快、零件表面受损,铣削温度的监测可以为铣刀设计、零件高质量加工、智能制造中的监测环节等研究提供参考。目前,在刀具中嵌入人工热电偶,同时采用无线蓝牙传输和电池供电的集成式刀柄系统是主要的铣削温度测量方法,但存在蓝牙传输距离近、不稳定、电池供电时间极短的问题,因此,本文研究采用持续供电的无线供电方式、