基于统计模型的汉语歌声合成研究

被引量 : 0次 | 上传用户:illyfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
所谓歌声是指人类有意识地通过控制自身声带的振动和口腔、鼻腔等发音器官的形变而发出的有乐感的声音,而歌声合成则是指利用语音合成相关技术让计算机合成出模拟人的歌唱声。随着基于统计模型的语音合成技术的快速发展和逐渐成熟,尤其基于隐马尔科夫模型的方法取得了最多的关注和最为充分的进展。2006年左右上述基于统计模型的语音合成技术开始被用于歌声合成,并取得了不错的结果。由于所述方法具有所需语料数据少、语料标注的自动化程度高等诸多优点,使其的可用性大大增加,引起了众多学者的广泛关注。本文以歌声合成为主要研究目标,重点研究基于统计模型的歌声合成算法,并在此基础上构建一个可以从输入乐谱、歌词和歌唱人的个性化歌唱特征直接输出个性化歌声的歌声合成系统。本文的主要贡献和创新点如下:1.为了给个性化歌声合成提供充分和优质的歌声数据,自主设计了歌声录制方案,并依据该方案录制了包含210张乐谱,共132分钟的歌声数据库,为构建歌唱合成系统奠定了可靠的数据基础。2.以上述歌声数据库为基础,利用基于统计模型的语音合成相关技术构建了一套完整的歌声合成系统。所构建的系统能够合成出适度音强、精准音高和节奏以及个性化音色的歌唱声。对比实验结果表明,利用本文方法所合成的歌声在质量和表现力上均取得了与目前世界上公认最好的参数合成法(日语)相当的结果。3.结合歌声的基频的特点,提出了一系列的改进的基频模型。·针对歌声基频存在的数据稀疏问题,提出了参考乐谱的基频引导方法。该方法将乐谱中包含的基频信息引入到歌声基频的生成算法中,避免了因数据稀疏而造成的合成音高在时间和频谱结构上出现偏差的问题,可以合成出与乐谱相一致的具有精准音高的基频。·对真实基频和乐谱基频之间可能存在差异的问题进行了研究,提出了在训练中也考虑乐谱基频因素从而准确得到两者之间的差值的方法。利用该方法可以得到相比乐谱基频引导方法更加准确和真实的基频估计。上述方法也可用于连音符的合成。·提出了结合两个不同时间尺度的统计模型来合成歌唱基频的方法。该方法结合了状态与音节两个不同时间尺度的模型以克服合成歌唱基频时存在的过平滑现象,从而合成出表现力更强的基频。·提出了将挑选出的真实单元进行拼接的基频合成方法。该方法将基频的形状曲线和颤音曲线分开处理。其中,颤音以音符为单位进行建模,大大提高了所合成颤音的正确性。实验结果表明,基于真实单元的拼接方法可显著提高所合成基频的真实感和表现力。4.提出了基于统计模型的情感韵律转换方法。该方法可以利用一个较小的情感语音数据库,生成具备情感表达能力的语音。5.提出了一个利用帧间相关性实现音质转换的方法,并将其用于歌者转换。所述帧间相关性使用混合高斯模型框架下的自回归模型进行度量。该方法适用于具有低延时的应用场合。
其他文献
公众舆论在政治生活和社会发展中发挥着非常重要的作用。现如今科技发达,传播媒介多样,公众舆论已经渗入到生活中。但是公众舆论是把双刃剑,可以激发公众对政治参与的热情,如
林散之是我国近代伟大的书法家,他学书起步很早,“唯自孩提,即起弄笔”,壮年时期师从黄宾虹学习书画,一生临池不辍,直到古稀之年完成“衰年变法”,书法渐进成熟,形成自己独特
战略性新兴产业来源于基础研究和原始创新,其发展过程严格遵循着科技创新成果产业化的基本规律,不确定性是战略性新兴产业形成期最突出、最典型的本质特征。与技术追赶的工业
管理与伦理的结合源自于上世纪人们对企业管理活动中道德问题以及对社会影响的关注,随着社会经济的不断发展,管理与伦理相结合日益成为现代企业管理的一种新趋势。本文阐述了
重卡车架是整车的安装基体和主要的承载部件,根据力学知识对车架进行简化计算,确定大概是结构参数,并结合CAE软件进行分析和优化设计,通过这种车架设计的方法,使车架能够达到
随着信息技术的广泛应用,传统的地理教学模式、教学方式和教学手段受到了极大的冲击与挑战。同时,信息技术也为地理教学带来了生机与活力,使课堂教学效果发生了实质性的变化,
由于六西格玛项目选择是成功实施六西格玛项目管理的最重要环节之一,针对六西格玛项目选择的特点,结合模糊评价方法,建立了六西格玛项目选择的模糊评价流程,在分析六西格玛项