【摘 要】
:
近年来,语音合成作为人机交互至关重要的一个环节,受到了越来越多关注,韵律信息则是保证合成语音自然度和正确表意的关键因素。因此,需要对韵律边界做出正确的预测。在管道式语音合成系统中,韵律边界作为时长模块的输入以保证合成的音频具有韵律节奏。在端到端的语音合成系统中,当数据量较小的时候需要使用韵律边界作为额外的辅助信息以保证最后合成的音频具有韵律节奏。所以,提高韵律边界预测的准确率是语音合成中一个亟需解
论文部分内容阅读
近年来,语音合成作为人机交互至关重要的一个环节,受到了越来越多关注,韵律信息则是保证合成语音自然度和正确表意的关键因素。因此,需要对韵律边界做出正确的预测。在管道式语音合成系统中,韵律边界作为时长模块的输入以保证合成的音频具有韵律节奏。在端到端的语音合成系统中,当数据量较小的时候需要使用韵律边界作为额外的辅助信息以保证最后合成的音频具有韵律节奏。所以,提高韵律边界预测的准确率是语音合成中一个亟需解决的问题。因此,本研究以文本时域和空域信息结合为出发点,达到了提高韵律边界预测准确率的目的。随着自然语言技术的发展,BERT预训练模型也在韵律边界预测中表现出了很好的效果,但是韵律结构的基本单元是韵律词,而不是字。基于以上的观察,本研究为了捕捉到当前字与相邻字之间的影响,提出了一种基于图神经网络的韵律边界预测方法。在空域进行特征信息聚集的同时,将不同的注意力权重分配给相邻字,从而获取当前字与其相邻字之间的影响,增强字嵌入作为输入时字与字之间的联系,减少独立性。为了进一步解决,韵律词、韵律短语、语调短语三种韵律边界的预测准确率相差较大的问题,本研究进一步提出了结合了图神经网络的多任务方法,进行韵律边界的预测。通过多任务的方法建模韵律边界之间的依赖关系,将低级韵律边界预测的结果作为高级韵律边界的部分输入,以此来提高韵律结构预测的准确率。韵律词、韵律短语、语调短语的准确率从基线实验BILSTM-CRF的92%、72.446%、77.841%分别提升至93.320%、73.500%、79.720%,在规模较小的数据上也取得了明显的提升,证明了本研究提出的基于图神经网络的韵律边界预测方法可以有效地提高韵律边界预测的准确率。结合多任务的改进方法进一步地将韵律短语和语调短语的准确率分别提升至74.560%、80.231%,合成的音频在自然度的表现上有很好的提升,说明了改进方法的有效性。
其他文献
作为审前羁押制度核心条件的羁押必要性,集中体现了比例原则的内容与要求。本文立足于我国审前羁押制度的具体实践,以审前羁押制度目的为依据,通过比较借鉴域外审前羁押制度中比例原则的具体内容,对羁押必要性条件进行合目的、体系化的解读。应当在刑事诉讼全流程和全部逮捕类型中对羁押必要性条件的有无和高低进行实质性判断,提高未成年人的羁押必要性条件,对一般性羁押事由和预防性羁押事由作不同的解释限度要求,以确保审前
人机对话系统旨在能够使人与机器进行自然的言语交互,是人工智能一个核心的研究问题。近些年来,构建开放域对话系统让人们越来越感兴趣,因为开放域对话系统能够实现机器与人在广泛话题下的自然交流。检索式开放域对系统从预先建立的回复候选中选择最匹配的回复,返回的回复往往是流利的,并且信息含量丰富。本研究的目的是为了探究有效的深度匹配网络来进一步提升多轮检索式对话系统的性能。最佳的回复候选往往根据对话上下文进行
流体模拟作为计算机图形学中的热点问题,在学术界和工业界中均得到了广泛关注。本文针对自然最常见的流体——水的模拟技术进行了探讨。在目前应用最为广泛的基于物理的方法中,本文以基于粒子法的水模拟技术作为切入点,并将其分为二维水面波模拟和三维水模拟两个方面进行展开研究。针对基于粒子法的二维水面波模拟,本文受目前先进的波包法框架的启发,提出了一种新颖的交互式水面波模拟方案。首先,提出了一种双波数波包技术来更
高等学校青年教师是高等学校教育事业的有生力量和未来骨干,高等学校青年教师职业道德修养提升面临着诸多挑战和压力,面对这些挑战、压力和诱惑,高等学校青年教师职业道德失范的风险加大。高等学校青年教师提升职业道德修养意义重大,为高等学校青年教师职业生涯发展奠定了坚实基础,为培育符合时代要求的大学生树立了可靠保障,为高等学校教育事业健康有序发展构筑了作风防线。高等学校青年教师职业道德修养提升任重道远,对实现
到2020年7月,全球社交媒体用户总数达到了39.6亿,超过全球一半以上的人口。大量的用户倾向于在社交媒体上发布个人情感动态或者表达观点。这些海量的用户数据心理疾病检测研究的开展提供了数据支撑并取得了良好的效果。但是目前的心理疾病检测研究范围大多局限在小规模数据集和基于临床诊断的特定数据上。同时现有的检测模型大多基于传统的机器学习算法,需要依赖大量的特征工程。其他基于神经网络的检测模型又很难精准的
功能磁共振成像技术是探测大脑功能机制的重要手段。基于功能磁共振技术的大脑功能分区方法主要基于聚类和边界映射实现,前者着眼于脑区内特征的相似性,后者则关注边界处的特征突变。最新关于功能分区的研究表明,在从静息态向任务态转变时,基于聚类方法的大脑分区会发生基于特定状态的、可重复的、实质性的重构。该研究使用聚类的分区方法,从基于脑区的多种特征中得出了静息态和任务态的功能分区结果存在差异的结论。而由于分区
从BIM技术应用特点和装配式建筑一体化集成应用关键问题出发,探讨了基于BIM技术的装配式建筑一体化集成应用原则和内容,结合盛江花苑项目和济南通信枢纽楼项目,对BIM技术在装配式建筑一体化集成应用各阶段以及生产、施工和运维阶段的应用场景做了介绍。通过BIM技术可实现装配式建筑一体化集成应用及全过程管理,有力保障了装配式建筑的顺利实施。
<正>应急预案作为“一案三制”(应急管理体制、应急管理机制、应急管理法制、应急预案)的重要组成部分,在应对突发事件中发挥着重要作用。从历史的观点来看,21世纪以来,我国突发事件应急预案体系从初步形成向优化发展的历史脉络十分清晰。我国突发事件应急预案体系建设在“非典”疫情的影响之下引发了社会各界的高度重视,并在政策引导和组织助推的共同合力作用之下初步形成。
在总结多年应对水旱灾害经验的基础上,辽宁省逐步建立起了一套行之有效的防汛抗旱应急预案体系。以辽宁省防汛抗旱应急预案体系建设现状为基础,立足于防汛抗旱工作的实际需要,从制度规范、组织管理和基层能力3个方面提出辽宁省防汛抗旱应急预案体系建设中存在的主要问题并提出了相应的解决建议。通过研究,可以进一步完善辽宁省防汛抗旱应急预案体系的内部架构,增强体系的适用性和可操作性,在处理突发水旱灾害事件中发挥更大的
在人类交互过程中,语音扮演着传递信息的重要角色。语音除了包含说话人想表达的内容之外,同时也包含了该语音的属者身份信息,利用说话人的声音验证说话人身份的过程称为说话人验证。由于说话人验证技术的方便性和有效性,其作为一种身份认证技术在许多应用场景下越来越受欢迎,包括公共安全,反恐,司法和电话银行等领域。通常情况下,自动说话人验证作为一项开放集任务,训练集中的说话人与测试集中的说话人是不同的,所以不能将