论文部分内容阅读
语音是人类最常用的信息传递方式之一。近年来,以儿童语音为核心的数据吸引了大量的研究。这些儿童语音的数据多为婴儿和幼儿每天生活中四处走动时收集的录音。儿童语音的数据对于理论学科的发展,比如发展心理学和认知科学等,以及许多应用,比如潜在语言障碍的诊断和干预儿童效果的测量等,有着广泛的意义。然而在对儿童语音感兴趣的情况下,却很少有分析算法能够做到将儿童语音较好地提取出来,究其原因主要有以下几个难点:首先,记录的声音大部分属于婴儿或者是戴着录制设备的孩子,他们会发出非语言的声音,比如哭泣。此外,由于儿童这一群体的特殊性,在儿童语音录制的同时会有成人语音的出现,不同成人与录音设备位置的不同导致了远场声音和近场声音的交替混杂。最后,录音设备录入的可能是多个儿童以及多个成人的混合语音。如果想要利用儿童语音的数据做其他应用,我们需要将儿童的语音尽可能地分离出来,因此真实场景下的儿童语音提取任务在儿童语音的实际应用中具有重要意义。近些年来,随着深度学习方法在成人语音信号提取的任务中达到了较好的效果,这也为儿童语音的分离提取提供了一种可行的思路。然而,基于深度学习的成人语音分离算法往往是在仿真环境下进行的。仿真环境往往较为简单,并没有考虑现实声学环境的复杂情况,比如与语音同时存在的噪声混响,以及多说话人重叠的情况等,这些情况往往导致语音分离算法在真实场景下的性能出现下降甚至不可使用。因此,提出针对真实场景下儿童语音提取的算法是必要的。本研究围绕真实场景下的儿童语音提取问题,将研究在复杂的伴有噪声混响以及多干扰人的真实场景下,如何有效地将语音中的儿童语音尽可能准确地提取出来。同时由于任务是在真实场景下完成的,我们无法去测量一些诸如语音质量和语音可懂度等客观指标,我们同样需要提出一套适用于真实场景下衡量儿童语音提取质量的指标。最后我们针对不同的数据集提出面向儿童语音分离的自适应方法,从而进一步改善儿童语音提取的准确度。首先,我们提出基于渐进式学习的儿童语音分离模型。为了验证儿童语音与成人语音是否存在分离的可能性,我们首先使用说话人向量和多维标度验证了儿童成人语音的差异性。之后,我们采用渐进式学习的方法来搭建一个用于儿童语音分离的渐进式学习的长短时记忆(Long-Short Term Memory,LSTM)神经网络。通过在仿真集上的测试,基于渐进式学习的LSTM网络在儿童语音分离任务上能够取得比基线LSTM网络更优的语音可懂度以及语音质量,达到了更优的效果,同时在真实集上的测试,我们的模型相比基线模型能够得到较好的听感。其次,为了让整体系统在真实场景下达到理想的效果,我们提出了联合语音增强和语音分离的儿童语音提取框架。我们首先针对语音分离模型进行了一系列的改进。在训练数据集上我们扩充了儿童语音的训练语料,增加了大量的真实场景下录取的儿童语音以保证儿童语音的多样性和丰富性,同时增加了大量的成人语音以保证音素的完整性。在模型调整方面,我们定义了渐进的理想比值掩蔽,并将其引入到原始模型中,得到了全新的渐进式多目标网络。之后我们在语音分离模型之前增加了一个语音增强模型作为前端系统来对噪声进行抑制。同样的,我们提出了在真实场景下衡量儿童语音提取质量的指标,分别是Jaccard错误率和儿童语音时长错误率。最后,针对不同的儿童语音数据集的不同的特性,我们提出了针对特定数据集的面向儿童语音分离的自适应方法。我们提出了两步(two-pass)的分离策略,首先使用渐进式多目标网络对特定数据集进行分离,并且认为分离出的结果的可信度较高,得到第一步分离的结果,之后我们采用分离出的儿童语音以及对应的成人语音构造训练集,对模型进行微调,只更新全连接层的参数,同时加入正则化项,以此得到针对特定数据集的分离模型,使用此分离模型对原始的输入进行进一步的分离,得到第二步分离的结果。根据不同测试集的测试结果,面向儿童语音分离的自适应模型能够在儿童语音提取任务上带来进一步的性能提升。在本文的最后,我们对全文进行了总结,并对课题的后续工作进行展望。