基于深度学习的小尺度单元拼接语音合成方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ncufox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术旨在实现文本等输入信息到语音波形的转换。统计参数语音合成方法以及单元挑选与波形拼接方法是现阶段实现语音合成的两类主流方法。前者具有系统自动构建、合成语音平滑流畅等优点。但是受制于参数合成器等因素,其合成语音的自然度仍不够理想。在统计声学模型指导下使用帧级长度的小尺度单元进行单元挑选和波形拼接,是一种改进统计参数方法合成语音自然度的有效途径。传统小尺度单元挑选方法使用隐马尔科夫模型(hidden Markov model,HMM)进行声学建模和代价函数计算。而近年来,以深度神经网络为代表的深度学习方法已经在统计参数语音合成的声学建模中体现出了相对HMM的性能优势。因此,本文围绕基于深度学习的小尺度单元拼接语音合成方法开展研究工作。一方面,研究了用于指导小尺度单元挑选的神经网络声学建模方法,通过使用深度神经网络与递归神经网络等模型结构,提升了传统HMM模型的建模精度与合成语音质量;另一方面,提出了一种结合单元挑选和参数生成的语音合成方法,利用帧拼接方法实现了激励特征波形的生成,改善了传统统计参数合成方法中对于相位等激励信息建模能力的不足,提高了合成语音自然度。本文的研究工作具体如下:首先,本文提出了基于深度神经网络的帧拼接语音合成方法。该方法使用深度神经网络构建声学模型用于帧挑选中的目标代价与连接代价的计算,相对传统HMM模型提高了模型的预测精度与合成语音的主观质量。其次,本文研究了基于递归神经网络的小尺度单元挑选与波形拼接合成方法。该方法一方面采用结合长短时记忆单元的递归神经网络进行声学建模以改善深度神经网络的时序建模能力,另一方面引入多帧挑选策略以减少拼接点,取得了比基于深度神经网络的帧拼接方法更好的合成语音自然度。最后,本文设计实现了结合单元挑选激励生成的参数合成方法。该方法对提取的激励特征波形进行参数表征和声学建模,在合成阶段使用帧拼接方法生成激励特征波形的高频成分,同时使用参数生成方法预测滤波器特征,最终通过滤波合成语音波形。实验结果表明了该方法在改善统计参数方法合成语音自然度上的有效性。
其他文献
青毛豆剥壳是毛豆产业深加工过程中重要工序。随着毛豆产量的增长,毛豆相关产业在国内外迅速发展和推广,毛豆加工行业对毛豆剥壳效率和剥壳质量要求也随之提高。已有的青毛豆
元宵节的起源历来众说纷纭,莫衷一是。最有影响的说法是元宵节起源于汉武帝时祭祀太一神的活动。然而,从节期来看,正月上辛日可以是正月上旬从初一到初十的任何一天,却绝不可
大数据时代下,信息风暴席卷各行各业,深刻影响着人们的工作、生活,并推动了现代教育工作的变革与发展。在此背景下,高校学生教育正面临着更多全新的机遇与挑战。新形势下,高
<正>国药典综发〔2010〕246号各省、自治区、直辖市食品药品监督管理局(药品监督管理局):《中国药典》2010年版即将实施,我委陆续收到反馈意见,涉及执行问题,经审核,部分品种
马铃薯是自治区确立的战略性主导产业之一,在解决群众温饱、保障粮食安全方面起到了重要作用。"十二五"期间,我区种植面积逐步扩大,产量水平不断提高,但从实际情况看,目前尚
目前我国正在加快城镇化进程,村镇建设工程数量剧增,质量安全生产形势严峻,建设过程中存在不少质量安全隐患。该文围绕村镇建设工程质量安全监督管理方面,如何有效提高工程质
甘肃省景泰川电力提灌二期工程渠道衬砌设计中,采用了混凝土板与膜料以水泥砂浆为过渡层的复合衬砌防渗技术.根据10年来的渠道衬砌实践和8年运行的检验,总结了该防渗措施在设计
针对小型和迷你型试验目标,提出一种新的空间微重力环境模拟系统.系统采用平面气浮和气缸垂直悬浮组合方案来模拟空间微重力环境,并采用恒张力控制思想来模拟垂直地面方向上
摔跤运动员的科学选材与提高摔跤运动水平密切相关。根据摔跤运动员的特点,在选材时应从摔跤运动员的形态结构,生理机能,身体素质,神经类型,心理素质,思想品质,遗传因素等几