语音合成音库自动标注方法研究

被引量 : 0次 | 上传用户:wangyingbbs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,语音合成技术在技术研发和实际应用方面都得到了飞速的发展。合成语音在音质和自然度上均有了明显的提高。目前主流的语音合成方法主要有基于隐马尔可夫模型(Hidden Markov Model, HMM)的参数语音合成方法以及基于大语料库的波形拼接合成方法。在采用这些语音合成方法构建合成系统时,需要先进行音库的构建。音库构建所需要的语音资源可以通过多种方式获取:既可以专门针对语音合成进行语料设计并录制音库,也可以利用已有的语音数据(例如视频、有声读物等多媒体资源)。但无论对于哪一种方法,均离不开音库的标注。合成音库的标注包括音段标注以及韵律标注:其中音段标注具体指标出音素序列并进行切分,音素切分指的是标注各个音素的起始和结束时间,切分信息通常只用于模型的初始化。现有的自动音段标注技术已经基本可以满足系统构建的需要。而韵律标注则是对语音的韵律信息进行标注,待标注的韵律类型与语言相关,例如对于中文合成系统韵律标注主要是指韵律层级的标注。韵律信息在合成系统中是作为模型的上下文信息来使用的,其标注的准确性将直接影响到合成语音的质量。对于合成音库的韵律信息,通常需要专业的标注人员进行标注。然而,随着音库规模的增大,人工标注的工作量急剧增加,此时通常需要多个标注人员参与韵律标注工作,标注的成本十分巨大;此外,韵律标注具有一定的主观性,保证不同标注人员之间标注结果的一致性较为困难。因此,如何通过计算机自动准确地进行合成音库的标注已成为当前的一个重要的研究方向。论文的研究工作将围绕合成音库的自动标注展开,针对不同的应用场景以及不同风格的音库,论文提出了相应的方法对韵律信息进行标注。整篇文章的主要工作包含以下几个方面:提出了基于HMM声学建模与状态解码的自动韵律标注方法。采用该方法进行合成音库自动标注的优势包括:在基于声学特征分布进行韵律标注时可以充分考虑其他已知标注信息对于分布参数的影响;通过整句解码的方式确定韵律标注结果,考虑了句中不同位置处韵律标注间的相关性;使用与语音识别类似的算法框架,可以借鉴语音识别中较为成熟的模型训练与解码算法。在具体实现中:我们首先提出基于穷举搜索的韵律短语边界自动标注方法,分析了合成系统中不同特征与上下文信息对韵律标注性能的影响,验证该方法的可行性;在此基础上我们又提出了基于维特比搜索的韵律短语自动标注方法,在保证标注结果准确性的前提下,提高了标注的效率。设计并实现了用于自动韵律标注的深度神经网络—隐马尔科夫模型(Deep Neural Network-HMM,DNN-HMM)声学建模方法,该方法利用了DNN相对于高斯混合模型(Gaussian Mixture Model,GMM)更强的声学建模能力进一步提高自动韵律标注的准确率。提出了结合特征聚类初始化与HMM声学建模的无监督自动韵律标注方法。该方法可以在没有人工韵律标注数据的情况下进行合成音库的自动韵律标注,从而自动地构建多发音人以及多发音风格的个性化语音合成系统。我们通过对朗读风格音库的韵律短语边界标注实验和对故事风格音库的重音位置标注实验,验证了该无监督韵律标注方法的有效性。提出了基于隐藏重音状态的无监督重音标注与合成方法。在上一部分的工作中,重音标注是作为一个普通的上下文信息参与决策树聚类,但是在重音单元数量比较少的情况下,重音信息在决策树聚类中难以得到体现,这样导致难以训练得到精确的重音/非重音模型,从而影响了重音标注的性能以及重音在合成语音中的体现。因此,这里我们考虑将重音信息从其他上下文信息中分离出来,引入重音状态层,使用线性变换来表征重音信息对声学特征分布的影响。该方法一方面可以避免重音稀疏性对模型精度的影响;另一方面该方法通过隐藏重音状态层以概率的形式对重音标注进行描述,改善了前一部分工作中二值化的重音标注对实际语音进行描述时的不足。
其他文献
<正>非特异性下腰痛定义为非已知的特定的病理造成的下腰痛(例如感染,肿瘤,骨质疏松症,骨折,结构畸形,炎症性疾病,神经根综合征或马尾综合征)[1]。目前临床上治疗慢性非特异
现行卫生监督体制在无证行医行政执法时存在着诸多困境,直接导致卫生监督机构及卫生执法人员面临较大的风险和考验。本文旨在通过对无证行医执法风险的特殊性、存在形式、存
目的探讨酪酸梭菌肠球菌三联活菌片治疗抗生素相关腹泻的临床疗效和安全性。方法选取本院2012年2月至2013年2月收治的抗生素相关腹泻患儿80例,随机分为观察组和对照组各40例;
目的:调查甘肃东部某农村地区已婚女性妇科疾病的患病情况及年龄、文化程度、生育次数、月经量等相关因素,综合分析其相关性,为制定、规划及实施有针对性的区域性农村已婚女性
为了诊断接地网腐蚀情况,提出了一种基于禁忌搜索算法的接地网故障诊断方法。采用轮换激励位置和每处激励多处测量的方法,使可及节点得到更充分利用,观测信息显著增加。以可
波达方向(DOA)估计是阵列信号处理中的一个重要研究内容,在雷达、声纳、通信系统、智能家电以及智能会议系统中有着广泛的应用。现有的绝大多数DOA估计算法都是基于阵列流形
2012年,全国各级法院新接收婚姻家庭、继承纠纷的一审案件有1686694件,同比增长了5.83%。其中,婚姻家庭纷争案件1518535,同比增长了3.17%,占婚姻家庭、继承纷争案件总数量的9
<正>~~
会议
目的中毒型细菌性痢疾(简称毒痢),是由于痢疾杆菌引起的一种急性消化道传染病。临床以高热、惊厥、昏迷并发呼吸及循环衰竭等为主要特征。小儿起病急,病情变化快[1],如抢救护
直流输电以其特有的优越性正逐渐在电力系统获得较多应用,特别是直流特高压工程相继投入建设,直流输电线路外绝缘问题越来越突出,而绝缘子串电位分布是影响外绝缘的主要因素