论文部分内容阅读
语音合成即文语转换(TTS)技术,是智能语音交互方式的重要分支。在当今这个快速发展的信息化社会中,人们普遍追求智能化的交互方式,其中语音合成技术已经在一些应用中广泛使用,如智能汽车的导航系统、电子设备中的语音助手、盲人阅读器等,这些应用为人类的生活带来无限方便。毋庸置疑,语音合成将在人们未来的生活中扮演非常重要的角色,但目前该技术在合成自然度方面与人们期望的目标仍然有一定差距,影响了语音合成技术的进一步发展,所以本文在研究语音合成的基础上,对传统的方法进行改进以提高合成语音的自然度。目前比较流行的两种语音合成方法分别是:基于统计建模的语音合成和基于波形拼接的语音合成,这两种方法各有优缺点,其中波形拼接合成方法得到的语音比较自然,非常接近人的原始声音,而基于统计建模的合成方法具有快速构建系统,合成效果稳定,存储空间较小等优点,所以本文深入研究这两种合成方法,结合二者的优点进行基于HMM的单元挑选语音合成方法的研究。在单元挑选准则方面,传统方法采用以帧为单位挑选语音帧单元,容易导致语音的连续性下降,同时算法的高复杂度也为实际应用带来不便,针对该不足本文将增大挑选单元的尺度,采用以声韵母为单位进行单元挑选,可以改善语音不连续的问题;在单元拼接过程中深入研究PSOLA算法,对传统自相关函数法基音标注产生的误判进行改进,采用中心削波函数与自相关函数相结合的方法实现基音提取,提高基音标注的准确度,此外为了简化计算量以便提高程序的运行效率,将中心削波函数改进为三电平函数;在单元拼接时由于拼接点之间出现的高频噪声对合成语音自然度影响较大,所以采取在拼接单元之间添加相应的过渡单元来平滑拼接处的不连续,以及在拼接过程中采用平滑算法进一步平滑处理,旨在提高合成语音的流畅性及自然度。文章最后将基于HMM的单元挑选语音合成系统同基于波形拼接语音合成系统以及基于HMM参数语音合成系统作对比,并分别从主观评价和客观分析上对三个系统作定性以及定量比较,结果表明由基于HMM的单元挑选语音合成系统得到的语音自然度有所提高。