基于层次网络和辅助任务的视频描述生成方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:zw244942568
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今社会,海量的信息每时每刻都在产生,这其中包括了各种各样的图片、视频和文本信息,我们统称为多媒体信息,同时处理这些信息的技术我们称为多模态技术。随着各式各样的传感器和设备的普及和日益增长的文化需求,我们很难准确和全方面获取我们需要的消息,这其中尤其以视频数据为主。为此大量的专家和学者开启了对于相关工作的研究,希望能处理和高效理解视频内容。利用计算机自动地理解视频的内容,有助于更好的对视频进行分类和检索。但是,视频中可能存在多个物体和复杂的场景,简单的通过分类或者目标检测无法代表视频的全部信息,所以理解视频内容的一种高效有用的方式就是将视频转化为自然语言描述。视频描述生成也会对盲人理解所处环境有着很大的帮助。视频描述任务是一门有趣并且实用的综合性研究,它需要计算机视觉和自然语言处理两个领域的结合。视频描述任务的基本目的是生成自然并且可读的语言。但是现实世界是开放和多元的,同样的场景和事物,不同的人有着不同的描述和侧重,这对机器生成的语言提出了新的要求:多样性、判别性和细腻度,既能概括出主体信息,又能着眼于局部信息的描述。因此,本文拟达到如下目标:(1)理解动态时空的视频信息。视频信息通常以人类活动为主题,包括多目标、多动作和多事件的特点,这是不同于图像静态空间。(2)机器生成的描述与人类表达的一致性。为了达到与人类表达的一致,机器需要在可读性的基础上,保持语义的高相似性和语法的严谨性。为了更好的介绍本文的研究成果,本文首先在第一章介绍整个研究背景和意义,以及国内外现状。在第二章,本文着眼于理论的阐述,介绍了常见的编解码器、注意力机制的原理以及视频表征的方法。在第三章中,紧接之前的理论核心,创新性的提出了基于层次网络和辅助任务的视频描述算法,并在此基础上,推广层次网络和辅助任务的算法。随后,基于层次网络和辅助任务的新型框与最先进的方法相比,在视频描述和视频问答的五个标准基准数据集(即MSVD、MSR-VTT、VATEX、MSVD-QA和MSRVTT-QA)上取得了有竞争力的性能。
其他文献
办理侵犯公民个人信息案件,重在准确界定自然人犯罪还是单位犯罪,进而把握涉案人员罪行轻重。结合全案证据情况,应准确认定涉案公民个人信息的类型,计算信息条数及违法所得,注重对鉴定意见、电子数据等证据的审查。检察机关还应当积极开展诉讼监督工作,注重追捕遗漏同案犯和发掘上下游关联犯罪线索。
在全球蔓延突发状况的国际形势下,跨境电商出口成为商家销售增长的新渠道,消费者评论也影响着商家的营销导向。文章通过对跨境电商平台下婚纱类产品的消费者评论进行文本挖掘,利用网络文本分析的方法,探究海外消费者对于婚纱产品的偏好以及影响消费者评价的重要因素,为婚纱商家营销活动提供意见和建议。
随着金融业的迅猛发展和金融交易监管的不断升级,可疑交易监测工作面临巨大考验。可疑交易是指通常情况下不认为符合正常逻辑思维的交易,本文首先介绍可疑交易的特点,而后提出多种不同聚类算法,分析不同聚类算法结合可疑交易识别工作下的优劣势。本文的核心是基于高斯混合模型下的可疑交易识别模型,针对可疑交易的交易结构与交易特点,来对可疑交易进行判别,并用Python实现对数据的可视化分析。
农村基层社会治理现代化是社会治理现代化,乃至于国家治理现代化的重要组成部分。中共中央国务院发布的《关于加强基层社会治理体系和治理能力现代化建设的意见》,意味着我国社会治理现代化的政策主张基本成熟。如何加快农村地区的全面发展,推进社会主义制度优势转化为农村基层社会治理的效能优势,促进农村基层社会治理现代化,是一个亟需在理论上回应的重要课题。苏北农村地区面积广、人口多,社会经济发展较快,随着乡村振兴战
知识整合是现代课程改革的主要问题之一。开展基于中药化学课程的化学知识整合教学,深入挖掘整合教学元素,优化教学内容及教学安排,探索问题式教学法、综合拓展式教学法等多元化教学方法,改革成绩评定方式,有利于实现知识的连贯性,激发学生学习兴趣,提升学生分析解决问题能力及团队协作能力,为培养创新性高素质中药学人才奠定基础。
中国当代作家冯唐因其对《飞鸟集》争议性的翻译引发了广泛的讨论,但其翻译选择显示了他与泰戈尔之间思想上的共契。冯唐与泰戈尔的思想联系主要体现在他们对文明与自然的思考,即两人的文明观上。泰戈尔的文明观主要表现在针对个人和针对人类两个向度,他要求在个体和群体的层面克服对权力的迷恋,皈依自然神性。冯唐的文明观主要通过他的小说创作体现出来,他将文明视为同时容纳欲望和仰望自由的存在形态。两位作家文明观的异同集
《小妇人》是美国作家露易莎·梅·奥尔科特的代表作,作品中乔与劳里的爱情让我们在happy end中感到一缕无奈,他们谁也没有错,但是互相在选择中扼杀了爱情,让人叹惋。
基于神经网络的图像样式转换算法成为计算机视觉的一个热点。单一神经网络的图像样式转换算法存在损失函数初值大,收敛速度慢,生成图像质量欠佳等问题。针对上述问题,本文提出了基于多维卷积神经网络的图像样式转换算法。首先,叠加了不同卷积神经网络。然后,降低了叠加网络深度,引入多维网络的特征提取模型。最后,采用一种预测方法对该网络的输入结果进行评估,从而实现了图像样式转换。试验结果表明,预测方法有效地预估了算
为了探究男性罪犯儿童期逆境的潜在类型及其与情绪、行为问题的关系,笔者选取432名男性罪犯,使用儿童期逆境问卷(ACEQ)、反应性—主动性攻击问卷(RPQ)、症状自评量表(SCL-90)抑郁焦虑分量表进行测评。结果发现,男性罪犯的儿童期逆境可分为4个类别,分别为忽视组、性虐待—家庭物质滥用组、多重侵害组和低逆境组。对4个类别在抑郁焦虑情绪、攻击行为上进行比对分析,有助于我们有针对性地改造罪犯。
在配电网规划领域,国网信阳供电公司以提高用户用电感知为目标,以配电网诊断分析为导向,以多专业数据融合的信息化平台作为支撑,以高质量规划评价为标准,实现规划—储备—投资—建设全环节,规划计划全过程闭环管理体系,提升了配电网规划投资管理水平,实现了用户用电感知满意度的全面提高。文章全面分析了国网信阳供电公司的关键举措,为配电网建设改造提供一个成功范本。