基于深度学习的真实场景下儿童语音提取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:buhao00155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类最常用的信息传递方式之一。近年来,以儿童语音为核心的数据吸引了大量的研究。这些儿童语音的数据多为婴儿和幼儿每天生活中四处走动时收集的录音。儿童语音的数据对于理论学科的发展,比如发展心理学和认知科学等,以及许多应用,比如潜在语言障碍的诊断和干预儿童效果的测量等,有着广泛的意义。然而在对儿童语音感兴趣的情况下,却很少有分析算法能够做到将儿童语音较好地提取出来,究其原因主要有以下几个难点:首先,记录的声音大部分属于婴儿或者是戴着录制设备的孩子,他们会发出非语言的声音,比如哭泣。此外,由于儿童这一群体的特殊性,在儿童语音录制的同时会有成人语音的出现,不同成人与录音设备位置的不同导致了远场声音和近场声音的交替混杂。最后,录音设备录入的可能是多个儿童以及多个成人的混合语音。如果想要利用儿童语音的数据做其他应用,我们需要将儿童的语音尽可能地分离出来,因此真实场景下的儿童语音提取任务在儿童语音的实际应用中具有重要意义。近些年来,随着深度学习方法在成人语音信号提取的任务中达到了较好的效果,这也为儿童语音的分离提取提供了一种可行的思路。然而,基于深度学习的成人语音分离算法往往是在仿真环境下进行的。仿真环境往往较为简单,并没有考虑现实声学环境的复杂情况,比如与语音同时存在的噪声混响,以及多说话人重叠的情况等,这些情况往往导致语音分离算法在真实场景下的性能出现下降甚至不可使用。因此,提出针对真实场景下儿童语音提取的算法是必要的。本研究围绕真实场景下的儿童语音提取问题,将研究在复杂的伴有噪声混响以及多干扰人的真实场景下,如何有效地将语音中的儿童语音尽可能准确地提取出来。同时由于任务是在真实场景下完成的,我们无法去测量一些诸如语音质量和语音可懂度等客观指标,我们同样需要提出一套适用于真实场景下衡量儿童语音提取质量的指标。最后我们针对不同的数据集提出面向儿童语音分离的自适应方法,从而进一步改善儿童语音提取的准确度。首先,我们提出基于渐进式学习的儿童语音分离模型。为了验证儿童语音与成人语音是否存在分离的可能性,我们首先使用说话人向量和多维标度验证了儿童成人语音的差异性。之后,我们采用渐进式学习的方法来搭建一个用于儿童语音分离的渐进式学习的长短时记忆(Long-Short Term Memory,LSTM)神经网络。通过在仿真集上的测试,基于渐进式学习的LSTM网络在儿童语音分离任务上能够取得比基线LSTM网络更优的语音可懂度以及语音质量,达到了更优的效果,同时在真实集上的测试,我们的模型相比基线模型能够得到较好的听感。其次,为了让整体系统在真实场景下达到理想的效果,我们提出了联合语音增强和语音分离的儿童语音提取框架。我们首先针对语音分离模型进行了一系列的改进。在训练数据集上我们扩充了儿童语音的训练语料,增加了大量的真实场景下录取的儿童语音以保证儿童语音的多样性和丰富性,同时增加了大量的成人语音以保证音素的完整性。在模型调整方面,我们定义了渐进的理想比值掩蔽,并将其引入到原始模型中,得到了全新的渐进式多目标网络。之后我们在语音分离模型之前增加了一个语音增强模型作为前端系统来对噪声进行抑制。同样的,我们提出了在真实场景下衡量儿童语音提取质量的指标,分别是Jaccard错误率和儿童语音时长错误率。最后,针对不同的儿童语音数据集的不同的特性,我们提出了针对特定数据集的面向儿童语音分离的自适应方法。我们提出了两步(two-pass)的分离策略,首先使用渐进式多目标网络对特定数据集进行分离,并且认为分离出的结果的可信度较高,得到第一步分离的结果,之后我们采用分离出的儿童语音以及对应的成人语音构造训练集,对模型进行微调,只更新全连接层的参数,同时加入正则化项,以此得到针对特定数据集的分离模型,使用此分离模型对原始的输入进行进一步的分离,得到第二步分离的结果。根据不同测试集的测试结果,面向儿童语音分离的自适应模型能够在儿童语音提取任务上带来进一步的性能提升。在本文的最后,我们对全文进行了总结,并对课题的后续工作进行展望。
其他文献
淮南市寿县瓦埠湖地理位置特殊,分布了大量的湖积软土,这些软土具有天然含水量高、压缩性强、孔隙比大和承载力低等不利于工程建设的特点,严重阻碍了该区域的发展。为了使这
海相软土固化处理是近海基础设施建设中的重要环节,硫铝酸盐水泥(SAC)具有快硬早强、硬化浆体耐海水侵蚀等特性,适用于海洋工程领域。现阶段对于SAC固化土的力学性能研究较多
本刊讯(杨成)6月2日下午,省人大常委会内务司法工委党支部召开全体党员(扩大)会议,省人大常委会副主任、党组成员贾东军以普通党员身份参加支部学习,并围绕“两学一做”学习
近年来,随着移动互联网的蓬勃发展,人们对网络移动性、开放性以及高效性等的需求也变得愈发强烈。移动自组网(Mobile Ad-hoc Networks,MANET)是一种无中心结构通信网,具有铺
滨海城市开发时需要对滩涂淤泥以及吹填土进行加固处理,其中地基中的淤泥质土具有高含水率、高压缩性、低强度等特性。淤泥质土的这些特性对于工程施工有很大的影响,使得很多
青海省委省政府领导对省政协报送的协商成果作出批示32次;省政协高质量完成15项重点协商议政工作;各专门委员会认真开展对口协商、界别协商、重点提案办理协商等30余次……20
金长城(金界壕)遗址于2001年6月被国务院公布为第五批全国重点文物保护单位。是公元十二世纪中国乃至东北亚最大的军事防御工程,北方女真人在建立与南宋、西夏鼎立三分的金(
党的十九届五中全会提出"持续优化市场化法治化国际化营商环境",为各地打造一流营商环境、引领构建新发展格局、实现经济高质量发展指明了努力的方向。笔者及研究团队成员深
纪检监察信访举报工作是纪检监察机关密切联系群众的桥梁和纽带,是重要的群众工作。贯彻执行《纪检监察机关处理检举控告工作规则》(以下简称《规则》),必须贯彻以人民为中心
认真学习贯彻习近平总书记在十九届中央纪委五次全会上的重要讲话精神和全会部署是当前首要的政治任务,特别是要深刻领悟习近平总书记提出的"全面从严治党首先要从政治上看"