论文部分内容阅读
语音是人类传递信息最直接的方式。近年来,发声器官器质性或神经性的病变使得嗓音疾病发病率越来越高,嗓音含混不清会影响人们的沟通效率,采用非侵入式的信号处理方式对病理嗓音进行修复,能提高受损语音的可懂度,提高人们的沟通效率。此外,病理嗓音修复在语音识别、机器导航、语音增强、语音通信系统、军事刑侦和隐蔽监听等领域都有着很广泛的应用前景。本文以提高病理嗓音可懂度为目标,设计实现了一套完整的病理嗓音修复系统,具体完成的工作如下:
(1)分析发声系统的原理,为研究病理嗓音形成机制提供理论基础。通过发声系统的数学模型对激励模型、声道模型和辐射模型进行详细地介绍。针对发病率高的声带息肉嗓音信号,从时域、频域的角度分析其声学特性,并从短时和长时两方面分类总结声学特征,高效地对病理嗓音信号进行特征分析。研究提高病理嗓音识别率的算法。针对传统声学特征对病理嗓音识别率低的问题,提出一种E-BLSP参数的病理嗓音识别算法,将E-BLSP特征和其他传统参数(LPCC、MFCC)输入到SVM和DNN网络中,研究单一特征和融合特征在两种分类器下的识别性能,准确率、ROC等多个客观指标的评价结果均验证了该算法的有效性。
(2)研究激励模型中反映韵律特性的激励参数,针对传统算法提取病理嗓音基频失效的问题,提出一种基于小波变换和HHT变换的算法,准确提取病理嗓音基频信息;研究声道模型参数和元音类型、发声音色的关系,针对病理嗓音信号共振峰出现偏移、不稳定等问题,基于LSP参数,参照正常嗓音参数特性对病理嗓音进行迭代修复,实现对病理嗓音声道特性的重建;研究基于不同合成规则的语音合成算法,基于修复后的基频参数和声道参数选择线性预测参数合成法进行病理嗓音再合成;研究评价语音质量的指标,针对修复前后的嗓音信号,分别从时域测度、频域测度和听觉域测度评价病理嗓音修复系统的性能。实验结果表明,本论文实现的病理嗓音修复系统在语音可懂度方面取得了令人满意的效果。
(1)分析发声系统的原理,为研究病理嗓音形成机制提供理论基础。通过发声系统的数学模型对激励模型、声道模型和辐射模型进行详细地介绍。针对发病率高的声带息肉嗓音信号,从时域、频域的角度分析其声学特性,并从短时和长时两方面分类总结声学特征,高效地对病理嗓音信号进行特征分析。研究提高病理嗓音识别率的算法。针对传统声学特征对病理嗓音识别率低的问题,提出一种E-BLSP参数的病理嗓音识别算法,将E-BLSP特征和其他传统参数(LPCC、MFCC)输入到SVM和DNN网络中,研究单一特征和融合特征在两种分类器下的识别性能,准确率、ROC等多个客观指标的评价结果均验证了该算法的有效性。
(2)研究激励模型中反映韵律特性的激励参数,针对传统算法提取病理嗓音基频失效的问题,提出一种基于小波变换和HHT变换的算法,准确提取病理嗓音基频信息;研究声道模型参数和元音类型、发声音色的关系,针对病理嗓音信号共振峰出现偏移、不稳定等问题,基于LSP参数,参照正常嗓音参数特性对病理嗓音进行迭代修复,实现对病理嗓音声道特性的重建;研究基于不同合成规则的语音合成算法,基于修复后的基频参数和声道参数选择线性预测参数合成法进行病理嗓音再合成;研究评价语音质量的指标,针对修复前后的嗓音信号,分别从时域测度、频域测度和听觉域测度评价病理嗓音修复系统的性能。实验结果表明,本论文实现的病理嗓音修复系统在语音可懂度方面取得了令人满意的效果。