汉语情感语音的可视合成研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:ygp313
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人机交互的发展以及合成语音应用的推广,人们对语音合成提出了更高的要求。如果在合成语音的同时有相应的人脸动画作为辅助,可进一步提高人机交互的友好性和方便性。而合成的语音如果能模拟表达说话人的情感状态,则会提高合成语音的自然度。本文的重点主要放在情感语音的合成和语音可视化两个方面。在语音合成之前,首先构建了一个小型的情感语料库,通过引入情感语料库来增加合成语音的感情色彩,其中的语料句子分为喜、怒、惊、悲四种情感。然后应用人工神经网络的方法进行韵律建模,用来提高合成语音的自然度。在情感语料库和韵律建模的基础上,构建了一个文语转换系统,合成出具有不同感情色彩的语音。通过比较,采用基于波形拼接的语音合成方法。在语音的可视化方面,本文采用基于图像拼接的方法。通过将音素分类,映射为不同的情感图像。每种情感包括十二幅图像,不同的情感对应不同组的图像。图像间的过渡采用基于双调和样条插值算法处理,在选择特征点后进行扭曲映射,再通过交叉融合生成关键帧。为了验证合成质量与效果,本文构建了一个文本可视语音转换系统(Text-To-Visual-Speech,TTVS),并进行了计算机仿真。通过听音测试以及合成语音基频曲线对比证明,该系统合成语音的自然度较高,能够部分反映语句中的情感特征。在视觉效果上,图像间的过渡比较自然,而且通过增加选取特征点的个数,可以进一步改善图像过渡点平滑程度。
其他文献
在射频接收机中,可变增益放大器(Variable Gain Amplifier,VGA)与反馈环路组成的自动增益控制电路(Automatic Gain Control,AGC)为基带ADC提供恒定的信号功率,是射频接收机的关键模块
第一部分麻疯树胚胎发育晚期富集蛋白基因[JcLEA)的功能分析最早发现于陆生植物中的LEA蛋白,是一类在植物种子胚胎发育晚期积累起来的亲水性蛋白家族。由于其在非生物逆境耐
学位
本课题设计的高速ECC算法协处理器用于满足大型认证服务器的高数据吞吐量的需求。其中,ECC算法芯片的吞吐率是解决服务器高数据吞吐量的关键。本课题的主要研究任务是高速ECC
随着我国经济的不断发展,信息时代的全面覆盖,我国各行各业已经陆续开展“互联网+”战略模式,并且打破了传统的运营理念,为企业带来全新的运营体验,能够使企业具有较高的行业
山梨醇是一种用途广泛的精细化工产品.目前山梨醇的生产采用葡萄糖催化还原法,微生物发酵法生产山梨醇与前者比较,具有反应条件温和、成本低等特点,有着良好的应用前景.该文
耐热对硝基苯酚磷酸酶(Thermo p-nitrophenylphosphatase,Bs-TpNPPase)来源于嗜热脂肪地芽孢杆菌(Bacillus stearothermophilius),是一种具有Mg2+依赖性的专一性碱性磷酸酶。序列
人类的PACT及其鼠科同源蛋白RAX是35KD的双链RNA结合蛋白,最早作为PKR(IFN诱导的dsRNA依赖的蛋白激酶)的激活蛋白分别被发现。它可以在多种应激刺激下发生磷酸化,包括砷毒性刺激
高频大功率MLCC陶瓷系统MgO-TiO2-ZnO-CaO(简称MTZC)是以MgO-TiO2-ZnO陶瓷系统为基础进一步研究得到的优秀的微波介质陶瓷材料,可作为滤波器、谐振器中的介质材料应用于大功率