基于音节信号声学特征的中文TTS系统中拼接单元的挑选方法

来源 :第七届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户：liangzi_li1

【摘要】

：

本文提出一种基于音节拼接的中文TTS系统的拼接单元挑选的新方法.拼接单元挑选划分为单元净化和单元优选两个阶段,并采用不同的声学量度准则.在计算拼接单元的听觉不满意处罚度时,引入了基于章节的清/浊结构、称为音节三段式分割和音节的多因素声学量度方法.实验结果和系统应用结果表明该方法是有效的.该方法特别适用于基于音节拼接的可嵌入式普通话和广东话TTS系统.

【作者】

：

俞振利王开志祖漪清岳东剑陈贵林

【机构】

：

摩托罗拉中国研究中心(上海市) 上海交通大学(上海市)

【出处】

：

第七届全国人机语音通讯学术会议

【发表日期】

：

2003年9期

【关键词】

：

音节信号音节拼接拼接单元挑选方法声学特征 TTS合成系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

VoIP的QoS问题在WIN2000中解决方案浅析

提高网络带宽利用率和保证传输质量是相互矛盾的两个方面.随着网络技术和IP业务的迅速发展,当今网络信息传输越来越多样化,相应也出现了许多有不同传输要求的服务业务,使这一矛盾显得更加突出.如何有效利用现有带宽为不同传输要求的业务提供保质保量的服务逐渐成为专业人士关注的的焦点.VoIP QoS技术作为一种能管理带宽并提供服务质量的机制无疑成为该领域中研究的热点.本文从Win2000的QoS的工作原理分析

会议

语音优先技术VoIP QoS技术网络传输

语音编码中的一种线谱对加权量化矢量快速搜索算法

在实现CDMA2000 1X基站系统中的增强可变速率编码器(EVRC)算法的基础上,提出了一种针对线谱对(LSP)加权量化矢量的简便而实用的快速搜索算法.利用原始算法的分析结果,从LSP原始码本构造了新码本,利用原始码本和新码本实现了快速搜索.理论分析可以使搜索时间减少到原来的14.6﹪,实际测试结果表明,在使EVRC算法总处理时间比原来减少大约11﹪的条件下,优化结果仍能保证解码端的音质无明显下

会议

语音编码加权量化矢量搜索算法EVRC算法

基于裁剪门限改进的Katz平滑算法

平滑算法是统计语言模型中解决数据稀疏性问题的有效且非常重要的技术,在现有的众多平滑算法中,基于Good-Turing折扣方法和Back Off的预测方法的Katz平滑算法应用最为广泛传统的Katz平滑算法在计算折扣系数时要求一次事件必须出现,对所有语料库这一条件并非一定满足,并且当对高阶n元对进行裁剪时问题尤为严重.本文从Katz推导折扣系数公式的约束条件出发,扩展了约束条件,推导出仅依赖于语料中

会议

语音识别语言模型平滑算法裁剪门限

一种新的说话人识别信道补偿技术

在说话人识别系统中,训练语音与测试玉音的话机类型失配会使说话人识别系统识别性能显著下降.本文在说话人模型合成和话机归一化基础上提出一种新的信道补偿方法,结合模型和分数两个方面对系统进行信道补偿.NIST1999说话人识别评测库上的实验表明,采用新的信道补偿方法使系统在等错误率和最小检测代价上比仅采用倒谱均值减的基线系统分别降低了39.4﹪和20.9﹪,而且优于只采用说话人模型合成或话机归一化补偿的

会议

说话人识别说话人确认话机失配信道补偿说话人模型合成话机归一化

文本无关的话者识别中基于SVM的判别策略研究

在话者识别中,判别策略常采用固定阈值作为门限对匹配结果进行判断,然而固定阈值在开放环境下健壮性较差.为解决阈值设定问题,本文通过分析匹配值间的特征,提出用SVM替代阈值作为判别决策的方法.在实验室环境下,结合GMM进行文本无关的话者实验,得到较好的结果.

会议

话者识别文本无关阈值设定判别策略

一种基于电话的中英双向翻译系统

本文我们将介绍一种基于电话的中英文双向翻译系统的设计及其运用.本系统在语音输入的前端运用了大词汇连续语音识别引擎.翻译模块采用多翻译引擎,具体如下,1)基于模版的翻译器 2)基于文法分割的翻译器 3)基于统计的翻译器.语音合成器则根据翻译结果,输出波形到电话端.系统运用了客户端—服务器的架构,而电话语音卡则作为双方通信的媒介.目前本系统仅限于旅馆预定业务,今后可以扩展到其他领域,文中还给出了一些初

会议

中英双向翻译系统电话语音翻译语音识别

基于GSM终端的移动电话语音数据采集系统的设计与实现

本文介绍了基于GSM终端的移动电话语音数据采集系统总体结构,着重讨论了系统的具体实现及数据采集过程控制问题.本系统采集的数据较好地反映了GSM移动电话语音的统计特性,为GSM移动电话语音交互技术研究打下了良好的基础.

会议

语音数据采集移动电话语音数据库

HNM模型中最大浊音频率的估计算法

HNM(Harmonic Plus Noise Model)模型把语音信号分成谐波和噪声两部分,分别合成后再叠加,得到合成语音.最大浊音频率(maximum voiced frequency,Fm)是划分谐波部分和噪声部分的参数,它对合成语音质量有着关键作用.本文利用语音信号中谐波和噪声在时域、频域上的不同特征,同时引入能量判决,较好地实现了HNM模型中最大浊音频率的估计,在基于HNM的汉语语音合

会议

语音合成HNM模型浊音频率估计算法

One pass方法与two pass方法优劣比较之初探

本文介绍了在THSP系统上如何实现基于beam viterbi搜索one pass方法,并且针对one pass方法的特点,对识别方式进行了一些改善,提出了一些新的技术,如对三长度假设的改善,"前靠式"静音处理方式,语言的句首静音模型等.并就实验结果初步探究了对基于beam viterbi搜索的one pass方法和two pass方法优劣的比较.试验结果表明,在系统开销基本没有增加的前提下,on

会议

语音识别One pass搜索two pass搜索

基于级联共振峰模型的浊音声源估计

声门空气流,即声门的体积速度函数被认为是语音生成的激励源,它的估计和描述对于研究语音信号的嗓音源非常重要.本文首先描述了根据语音产生过程的反滤波声源估计算法的基本原理,接着介绍了一下声道参数的提取,特别是使用频谱分段副近的共振峰估计算法,最后提出了基于级联共振峰模型反滤波浊音声源估计算法.这篇文章比较了以下三种声道的参数提取方法:基音异步、基音同步和带有闭相检测的基音同步对反滤波声源估计的影响,发

会议

声源估计反滤波基音同步语音生成

基于音节信号声学特征的中文TTS系统中拼接单元的挑选方法

与本文相关的学术论文