基于强化学习的自动音频标注系统研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ytvct
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动音频标注是一项多模态文本生成任务,旨在要求系统根据输入的音频片段,生成一段文字来描述音频。相比于传统的音频分类等任务,自动音频标注任务更为复杂,但也有着更广阔的应用前景,例如为残障人士提供便利服务等。已有的工作主要注重于探索新的方法以及如何更好地利用已有的数据集来改善模型的表现。目前,学界很少有工作利用预加载模型或是预训练手段来改善音频标注系统的表现。因此,本文针对自动音频标注这项多模态任务,探索了不同的单一模态的预加载模型组合来提升多模态系统性能的可行性,具体的工作内容如下:(1)为了在多模态任务中利用不同单模态的预加载模型组合来提升系统的性能,本文首先尝试了音频模态的预加载模型。我们将音频分类中的预加载模型PANNs引入至我们的音频标注系统之中,并用于初始化我们编码器模型的参数。然后,我们利用音频片段更多的Audio Caps数据集对于我们的音频标注系统进行预训练,以便于我们的编码器能够提取出更有利于解码器生成语句的音频特征信息。我们在质量更高的Clotho数据集上进行了训练,实验结果表明,我们所使用的单音频模态预加载模型效果良好,能够明显的提升音频标注这个多模态系统的表现。(2)针对音频标注系统里文本生成的部分,本文使用了一种来自于强化学习的预训练方法对音频标注的文本生成部分进行预训练,获得一个能够生成更加贴合文本评价指标标注语句的预加载模型。实验结果证明了使用该预加载模型的音频标注系统能够生成更高得分的标注语句。最后本文在此基础上探索了如何将不同模态预加载模型组合应用至自动音频标注系统之中。通过将上述的文本模态预加载模型与音频预加载模型PANNs相结合,最终在Clotho数据集上的训练的实验结果表明,使用单模态预加载模型组合方法能够大幅提升自动音频标注这个多模态系统最终的得分表现。
其他文献
在突发事件应急管理的过程中,应急信息的重要性不言而喻。为提高突发事件中应急信息的高效利用,有必要提高全社会的应急信息协同参与度,尤其是公众在应急信息协同中的积极性。在突发事件场景中,公众作为承灾者掌握的应急信息更加准确、时效性更强,对于及时把握事件态势、制定正确的应急决策具有重要的价值。为促进公众更为积极地参与应急信息的协同活动,探究公众群体中应急信息协同的动态演化规律及其影响机制具有十分重要的意
学位
光刻和蚀刻工艺程序繁琐复杂,设备要求高,制备过程中产生较多废弃物,污染环境。印刷电子技术具有灵活、快速、高效、低成本等优势,具有广泛的应用前景。其中,喷墨印刷技术能够快速、高效地在柔性衬底上实现电极材料的图案化。本文首先讨论了银源、胺类等对喷墨打印电极特性的影响,优化得到了基于柠檬酸银且符合家用喷墨打印机要求的银基导电墨水。然后使用多种手段对银基导电墨水的稳定性、导电薄膜在柔性衬底上的成膜性,以及
学位
中央苏区是在第二次国内革命战争时期,基于赣南、闽西革命根据地而建立并发展起来的中央革命根据地。中央苏区的邮政事业是中国人民邮政的开端,是中国人民革命斗争的缩影。深入探究这一时期的邮政事业建设与发展,不仅有利于拓展中共党史、中央苏区史及中国通信史的研究范畴,而且能够为新时代中国邮政的建设与发展提供借鉴与启示。本研究主要运用文献研究法和学科交叉研究法,在已有研究的基础上,进一步探究中央苏区邮政事业。首
学位
我国经济高质量发展阶段,面对经济社会发展中不充分、不平衡的现状,必须要落实“共享发展理念”。作为战略性新兴产业之一,信息产业能够有效推动国民经济发展和社会进步。共享发展和大数据信息时代不期而遇,需要充分发挥信息产业对共享发展的促进作用。本文立足于信息产业对共享发展的影响效应研究。第一,对信息产业和共享发展进行水平测度,充分考虑影响信息产业的环境因素,使用三阶段DEA方法测算信息产业综合技术效率;按
学位
21世纪以来,随着质量在产品核心竞争力中的地位日渐凸显,如何控制和提高产品质量成为越来越多的企业关注的焦点。控制图作为质量管理中重要的工具之一,可以通过对生产过程实时监控有效提高产品质量,因而受到广大学者和企业产品质量监管者的青睐。常见的控制图中,应用最广泛的是Shewhart型控制图,但是由于其仅使用当前的样本信息,对于较小或者中等偏移的检测能力较弱。在一些现代化精密制造的行业,如半导体制造业,
学位
随着积极老龄化的深入推行,养老行业将数字化、智能化等互联网相关概念引入到老年人的衣食住行当中,促进老年人的智慧生活,其中智慧出行是老年人生活当中尤为重要的现实问题之一,然而目前市场上的数字出行产品忽略了老年人在实际使用过程中的生理器质性变化、情感真实需求、交互综合体验等因素,以老年人为中心的服务设计思维尚未完全形成。文章从积极老龄化理念出发,分析城市老年人智慧出行的现状,发现用户在使用出行APP过
学位
在“双循环”经济背景之下,传统的企业商业模式不能适应新时代的发展。企业间的竞争也日益激烈,因此商业模式的创新对企业的生存空间发展具有至关重要的意义。目前企业要适应紧张的国际局势,以及面临新冠疫情带给社会的巨大冲击,商业模式的创新显得迫在眉睫。传统的调查显示发现,我国三大产业之间存在融合的态势。近些年,随着网络经济的蓬勃发展,产业内部的整合现象越发的突出,三大产业间的壁垒愈发模糊。论文探讨了由于企业
学位
近年来由于新冠疫情,传统的纸质投票存在潜在的健康风险。相对于传统的纸质投票,电子投票不受空间的限制,便捷性显著提高,研究安全、公平的电子投票变得更加重要。在互联网环境中,现有的电子投票系统存在一定的安全漏洞,导致其可能遭受到恶意的攻击。现有的自计票电子投票方案可以不依赖中央机构,实现了更强的隐私保护和无争议性。但这种方案计算最终的结果时,需要所有投票人的密文相乘,最后一个投票人可以提前得到最终的计
学位
调制信号分类指识别和分类所有接收信号的调制模式,以保证能够准确地解调信号,从而判断发送信号的类型,该技术已经广泛应用于军用和民用领域。近年来,深度学习以其出色的数据表达能力被应用到通信领域,实现了调制信号自动识别和分类。现有基于深度学习的调制信号分类大多是基于中心式和去中心式,但这些方法都不适用于子网共存且数据类型不匹配的异构无线网络(Heterogeneous Wireless Network,
学位
命名实体识别作为自然语言处理领域的一项核心基础任务,是分析和管理海量文本信息的关键技术手段,在大数据时代具有重要的应用和经济意义。尤其是生物医学领域中,随着互联网的高速发展,大量相关的医疗文本数据以非结构化或者半结构化的形式存储于网络之上,并且这些数字化的信息中蕴含着巨大的社会价值。因此如何充分地从中挖掘出潜在的有价值信息,有效缓解信息严重过剩所带来的挑战,已经成为了信息科学领域的一个热门研究方向
学位