面向中文广告文本的语音合成技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangluojishu0802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术是指通过机器将自然文本转换为语音信号的技术,是人工智能技术的重要组成部分之一,在人机交互中占据不可或缺的地位。语音合成技术发展至今,已经形成了基于波形拼接合成和统计参数合成两大主流方法。前者通过分析文本韵律特征,从语音库中挑选出候选的单元波形进行拼接,从而得到合成语音,这种方法合成的语音质量较高,但是需要建立对应的语音库,成本比较高,可移植性差。后者通过利用隐马尔科夫技术对文本和语音进行参数建模,预测合成语音的声学特征,并且通过声码器重建语音,但是这种方法比较依赖声码器的质量,而且合成的语音自然度不够。近年来,基于深度学习的语音合成技术成为当下语音合成领域的研究热点之一,并且逐渐展现出卓越的性能优势。基于以上的研究背景,本论文围绕基于深度学习方法的语音合成技术展开研究工作,探索高效的中文广告文本语音合成技术,并构建了对应的语音合成系统。该语音合成系统包含两个主要模块:文本到声学特征的预测模块和将声学特征转换为语音的声码器模块。在文本到声学特征预测模块研究中,论文以端到端的声学特征预测技术为研究基础,针对声学特征预测速度慢的问题,论文提出了将独立循环神经网络引入预测模块的方法,提高了声学特征的预测速度。同时,在基于端到端的声学特征预测技术研究中论文发现,基于端到端的声学特征预测技术虽然可以简化声学特征预测流程,但是最终合成出的声音比较单调,缺少韵律信息。针对这一问题,论文通过引进Lattice LSTM网络的方法,对文本的字词,韵律等信息进行融合,丰富了合成语音的细节。在声学特征到语音的转换研究中,论文探究了基于自回归深度生成网络的WaveNet模型。针对其预测速度慢的问题,论文引进了基于逆自回归流的并行WaveNet技术,使声码器可以实时的将声学特征转换为对应的语音。同时论文提出了基于说话人标识的多人语音合成技术,提高了模型训练效率,降低了模型对单人语料时长的依赖性。针对中文广告文本领域的语音合成,论文形成了完整的合成流程,搭建了面向中文广告文本的语音合成系统,可以根据广告文本合成清晰流畅的广告语音。
其他文献
为了探究煤基活性炭孔隙结构对于丁烷吸附-脱附的影响,通过配煤法制得比表面积1 494 m2/g、总孔容1.11 cm3/g、丁烷工作容量39.51wt%(11.70 g/100 mL)的煤基活性炭。通过改变
发展海洋生态旅游是实现山东半岛蓝色经济区战略的重要途径之一。在SWOT分析的基础上,指出在山东半岛蓝色经济区发展海洋生态旅游必须明确其动力机制,坚持统筹发展战略,从生态保
文章通过对一个汉族移民家庭语言生活状况的调查,研讨了在没有主体方言的地区,移民语言的变异情况及发展趋势.
讨论了科技论文采用顺序编码制著录参考文献时文献序号在文中的标注位置,分析了不能标注或尽可能不标注文献序号,以及标注位置的择优选择等各种不同情况,并提出了具体建议。
古希腊科学家阿基米德曾说,“给我一个支点,我将撬动整个地球”。随着景点旅游的式微,文化创意(简称“文创”)赋能旅游产品与市场成为当下最重要的变量。文创是旅游市场的生命,必然
报纸
本文以激励理论在企业管理中的运用分析为主要内容进行阐述,结合当下激励理论概念、激励理论在企业中使用价值和奖励理论在企业管理中实施途径为主要依据,从成立合理化竞争平
针对双MOS场效应管γ剂量探测器的测量结果受温度影响大的问题,设计了一套试验装置,在商业级温度范围内,通过试验研究了不同情况下双MOS管探测器读数随温度的变化规律,给出了
目的:对视功能损害眼病患者生存质量量表(The quality of life scale which measures the quality of life for Chinese patients with visual impairment,SQOL-DV1)应用于甲状
基于Morison方程和线性波及线性波浪谱理论,经过系统的大量的实验研究,探讨了单柱与串、并列双柱在规则波和不规则波与水流共同作用下,圆柱上所受正向力、升力及其合力的特征
遗传性牙龈纤维瘤病是一种罕见的家族遗传性疾病,以牙龈组织缓慢、渐进性增生为主要特征。本文对1例遗传性牙龈纤维瘤病家族进行报道及文献回顾。