论文部分内容阅读
语音转换是语音信号处理领域一个比较新颖的技术,它是改变一个说话人的语音,使之听起来像是另外一个人的语音的技术。这项技术结合了语音信号处理领域的各种技术,如语音信号分析,语音识别,语音合成,语音增强等。本文以开发汉语语音转换系统为目的,采用HMM语音识别和语音合成方法,研究汉语语音转换技术。根据汉语的特点,本文选择声母和韵母为语音识别和语音合成的基本单元。一个完整的语音转换系统由语音识别、参数转换和语音合成三部分组成。论文的主要工作包括:1.阐述语音转换系统的框架和实验数据准备,包括在考虑声母、韵母和音节覆盖率的前提下收集挑选1000句录音语料,邀请4位发音人录制语音库,录音格式转换,语音校对,对语音库中的语句进行语音识别,并从语音识别结果中提取声韵母时间信息。2.对语音识别结果进行人工校对、调整,在对声母时长进行统计的基础上产生韵律标记,生成单音子和三音子训练标注文件,为训练HMM合成器设计上下文属性和问题集,并在HTS-2.0平台进行HMM合成器的训练。3.按上述方法,产生两个说话人的HMM模型,将待转换语句的标注文件分别通过两个模型产生声学参数,再利用插值的方法生成第三人,也称为“虚拟人”的声学参数。4.将生成的“虚拟人”的参数通过STRAIGHT语音合成器产生语音波形,并对常规语音合成的语句和经过参数转换后产生的语句分别进行MOS评测和ABX评测。语音合成器的自然度和语音参数转换算法是本文语音转换效果的决定因素。实验结果表明:(1)本文语音合成器的初步MOS主观评测平均为集内4.2,集外3.9,说明语音合成的自然度已基本到达可以接受的水平。(2)采用声学参数插值实现语音转换后,经过ABX主观评测,结果表明该系统能够实现语音转换功能,可以控制转换后的语音更偏向两个源说话人中的某一个,且能综合两个源说话人的个性特征信息。