基于深度神经网络的语音合成方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:smashnj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类交流信息最基本、最便捷的方式,文字和语音都是描述语言的最有效的工具。语音合成技术就是用语音信号处理方法,将用户的文字信息转换成可以听得懂的、流畅的语音输出,它在人机交互、智能终端、文本阅读、语音播报、车载导航等领域具有广泛的应用。在基于深度神经网络(Deep Neural Network,DNN)的语音合成技术中,DNN模型建立了语言特征到声学特征之间的映射。由于DNN模型的局限性,语言特征和声学特征每帧之间都是相互独立的,难以反映出整个句子的全局特征,从而影响合成语音的质量。为了生成平滑的语音参数轨迹,所用的声学特征既包括静态特征,也包括动态特征(即声学特征对时间的一阶、二阶导数),这样在预测出声学特征后,使用语音参数生成算法即可生成平滑的语音参数轨迹,但是该方法要使用整个句子中所有帧的统计特性,从而产生较高的延时。为了解决上述问题,本文研究了基于深度神经网络的语音合成方法,所做的主要工作如下:(1)提出了一种考虑全局方差(Global Variance,GV)的DNN语音合成方法。该方法在训练阶段,先对文本数据进行前端处理,构建语言特征,并提取状态持续时间特征;然后对语音数据进行处理,提取声学特征,并根据声学特征提取GV特征。对于状态持续时间模型,其输入为语言特征,输出为状态持续时间特征;对于GV模型,其输入为句子级别的语言特征,输出为GV特征;对于声学模型,其输入为结合GV的语言特征,输出为声学特征;回归模型采用DNN模型。在合成阶段,待合成文本先通过前端处理来构建语言特征;然后将其输入到状态持续时间模型和GV模型,分别生成状态持续时间特征和GV特征;接着,根据状态持续时间对编码后的语言特征进行上采样,再根据GV特征生成结合GV的语言特征,并将其输入到声学模型,以生成声学特征;最后将声学特征送入声码器,即可合成语音。文中给出了实验结果。(2)改进了一种基于长短时记忆(Long Short-Term Memory,LSTM)网络的低延时语音合成方法。在该方法中,仅用静态特征作为声学特征,以降低语音合成的延时;用LSTM网络构建深度网络的循环输出层,并将其作为可训练的语音参数平滑器,以生成平滑的语音参数轨迹。在语音合成时,持续时间预测、声学特征预测以及声码器均以流的方式执行,以实现低延时的语音合成。文中给出了实验结果。
其他文献
杜邦分析法是以净资产收益率为核心的反映企业营运能力、盈利能力和偿债能力的综合性分析方法。本文通过分析杜邦分析法下的各项指标,得出总资产周转率是导致净资产收益率变
知识获取是专家系统的瓶颈,目前的知识获取大都通过机器学习来获得。本文将基于神经网络和粗糙集理论的机器学习方法应用于智能诊断知识获取,并进行了深入的研究。本文首先讨
本文主要研究中国证券市场中证券分析师推荐股票的盈利能力。研究对象为2003年《中国证券报》“潜力推荐票”和“须警惕个股”两个栏目刊登的股票,推荐分析师都是来自于各个
一个完善的社会信用体系应包括个人信用、企业信用和政府信用三个方面。政府信用在社会信用体系中处于核心地位,起着基础性、决定性、导向性的作用。没有良好的政府信用,就无法
东汉许慎的《说文解字》对汉字的解释以篆文为源,然在篆文之前,中国文字还有甲骨文、金文的存在,因此其中某些字的解释就有了局限性。本文从甲骨文、金文、篆文等古文字资料
<正>液相色谱-质谱联用技术(liquid chromatography-mass spectrometry,LC/MS)自20世纪70年代Horning等进行开创性研究工作以来,经过30年的发展已日趋成熟,各种商品化仪器相
会议
人际价值观是个体一般价值观在人际交往生活中的体现,是个体在长期的社会交往过程中所获得的较稳定的、持久的和具有动力作用的一套信念系统。本研究根据开放式问卷调查的结构
教师对教材内容的重新改造是一种客观存在的现象。新的课程改革倡导广大教师转变教材观,从“教”教材走向“用”教材。中学物理教师重构教材内容,主要是指物理教师对既定的教材
公司治理是近年来理论界讨论的热点问题之一。公司所有权与经营权的分离使得所有者与经营者在公司经营目标上产生不一致,由此形成委托代理问题,这是公司治理的核心。公司治理
随着我国经济的快速发展,国库收支信息量的不断加大,传统的国库手工统计工作面临着严峻的考验。将现代信息技术应用于国库统计,实现国库统计信息化,既是国家经济发展的必然要