汉语嵌入式TTS系统中的韵律建模和语音合成方法

来源 :山东大学 | 被引量 : 0次 | 上传用户:p6688718
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息技术的飞速发展,如何使人机界面更加自然和友好成为相关机构的研究热点,其中,语音交互方式备受人们关注。语音交互中非常重要的一项技术就是语音合成,本文着重研究语音合成技术中的音库设计,韵律建模和合成算法。 语音合成在高配置机器(如大型机,工作站等)上的应用已经非常广泛,但是由于嵌入式系统的资源限制,基于大语料库的语音合成方法难以在嵌入式系统上实现。因此,如何平衡音库容量和合成音质之间的矛盾便成了问题的核心所在。本文根据汉语音节的特点,提出了一种嵌入式音库的设计算法。在对样本之间失真度的测量上采用了符合人耳感知特性的MFCC参数,测量最小失真度使用了动态规划(DP)技术来优化匹配过程。根据对汉语中有调音节的出现频率的分析,确定了音库的最终结构。选取音节作为基元,采用改进的k均值聚类算法(MKM算法)。同时考虑到基元的后续处理,增加了候选基元,从而优化了基元库质量。 在人们的交流过程中,韵律隐含着文字所不能表达的信息,因此在汉语语音合成系统中,韵律建模的作用相当重要。相对于概率模型和决策树模型来说,神经网络有着强大的非线性映射能力和自学习能力,因此,这里选用神经网络来训练韵律模型。网络的输入参数主要从文本中获得,同时为了表达不同含义的需要加入了重音及其相关信息。根据汉语音节的特点可以归纳出17个有用的参数,重音参数不能直接从文本中获得,因此参考相关资料,提出了调域系数(TRR)和音节时长组合的方法来检测,实验表明能降低漏检率和提高召回率。根据参数的重要性不同将参数划分为两组矢量,对重要性较高的矢量采用增加加权层来提高网络输出的精度,从而构成了三组输入矢量。神经网络的中间层采用了高斯径向基函数对输入矢量进行映射,高斯函数的中心为该子空间的质心,径向宽度参数为该子空间中所有样本与
其他文献
近年来我国航天事业迅速发展,对抗辐射集成电路的需求也在不断的增加。存储器作为集成电路的重要组成部分,在长期空间使用中很容易发生总剂量效应。SRAM不仅作为最基本的存储器
传统的ELISA免疫检测的免疫反应发生在在载体表面,其缺点包括:反应效率低,反应速度慢以及灵敏度较低等。基于微球的免疫检测方法具有如下优点:(1)微球具有高的偶联量。(2)易于分离。(3
目的:探究在腹腔镜子宫肌瘤剔除术后实施优质护理干预对患者康复情况影响.方法:选2017年8月至2019年7月期间86例实施腹腔镜子宫肌瘤剔除术患者为研究对象,随机均分为2组,形成
无线通信技术的飞速发展,特别是高峰均比的数字调制方式的出现,对高功率射频放大器的线性度提出了越来越高的要求。为了提高功放的线性度,已经出现了多种功放线性化技术,其中新兴
以汕油523花生(Arachis hypogaea L.)10 d龄幼叶中部区段作为外植体,初步确定诱导的愈伤组织为胚性愈伤组织。最佳的诱导培养基为MS+TDZ(0.1 mg/L)+2,4-D(1.0 mg/L)。  
作为发展最快的非挥发性存储器,Flash存储器有着可比拟DRAM的随机存取速度,很高的集成度和在线编程擦除能力,在消费类电子,通信技术等许多领域都得到广泛的应用。但是,随着市场对
实验是科学研究的重要技术手段,实验教学是工程教育中必不可少的一部分。随着工程教育形式的丰富以及高等院校招生规模的不断扩大,常规的实验教学模式已经不能满足教学需求,
近年来,伴随着我国开始全面实施残疾儿童康复救助制度,越来越多的孤独症服务承担了政府购买残疾人服务的重任.但是,由于孤独症谱系障碍(ASD)病因迄今未明,各孤独症服务机构管
目的:针对老年输尿管结石的日常治疗,探讨通过输尿管钬激光碎石的方式进行治疗的整体效果,同时对清除结石结果进行分析.方法:将研究对象主要为本院于2018年8月到2019年7月间
鱼类的卵黄蛋白原(Vitellogenin,VTG)作为环境雌激素的“生物标志物”已得到了公认。本研究尝试建立一个检测环境雌激素的新方法,通过利用时间分辨免疫荧光分析技术(Time-res