人眼驱动语音合成的若干关键技术研究

被引量 : 2次 | 上传用户:yehyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随信息技术、人工智能的不断发展,语音合成在人机交互技术中受到越来越多的重视。但目前语音合成的主要问题在于合成的自然度、表现力不够,还不能接近自然语言的标准;同时语音合成的人机交互方式较为单调,缺乏使用者主观驱动的机制。本文首先对语音合成的历史发展进行了介绍,并总结了语音合成的一般过程,进而指出影响合成效果的重要环节是语音合成时的韵律生成模块。在深入研究的基础上,认为一方面可以引入新的人机交互手段来丰富语音合成的形式,提出了利用阅读时人的眼睛活动规律,主观控制驱动韵律生成;另一方面又充分利用机器学习的方法挖掘韵律规则,建立模拟精度更高的韵律模型。时长模型和重音模型是韵律生成要解决的关键问题。在时长韵律模型方面,提出了用阅读时的眼动注视时长,对合成语音的发音时长进行同步控制的思路。人的眼动阅读过程是一个综合、多因素交叉作用的复杂过程,如注视、眼跳、回视等;且语音编码和眼动控制是两个并行的独立系统。因此研究人眼驱动的“眼动时长”,就要权衡各种因素的影响,获取人眼注视的时长规律,以此作为眼动时长建模依据。在重音韵律模型方面,提出ELM极限学习机和半监督SELM机器学习方法用于重音预测,并通过实验进行了比对验证。本文还对语义重音的预测进行了探索性研究,由于语义重音取决于人的主观意识表达,本文尝试统计分析人的眼动信号与重音的联系,实验结果表明眼动注视时长和注视次数等特征和情境语义中的重音级别有相关性。围绕以上几个方面,本文的主要工作和创新点如下:1.提出利用人阅读时的眼动信号来驱动语音合成的方法,将眼动控制引入到语音合成的人机交互中。该方法对丰富人机交互的形式,或者残疾人辅助语音交互方面都有广泛的现实意义和应用前景。基于对现有的三种眼动控制模型的分析和内隐韵律阅读的特点,着重剖析了眼动阅读过程中,对文字的语音加工系统和眼动控制系统的相对独立性;证明了在文本熟悉度一致的条件下,阅读的眼动注视时长窗口和内部语音的发音时长窗口的同步关系;在此基础上提出了基于汉语层级韵律结构的眼动时长模型。该模型改变了以往对语音时长采用机器学习、概率预测的方法,倾向于捕获阅读者真正的内部阅读韵律,合成带有个性化节奏的语音。2.提出单隐含层前馈神经网络ELM极限学习机用于汉语重音预测。ELM极限学习机继承了传统神经网络泛化性能好的特点,使用单隐含层连接输入和输出权值矩阵。该算法可以适应任意输入权值和偏置向量,具有更强的泛化能力和更低的算法复杂度。实验分别使用ELM极限学习机和以RBF为核函数的SVM两种机器学习算法进行了汉语重音预测实验;对比了重音预测的正确率和算法执行时间;实验数据表明,该神经网络模型在保证预测精确度的基础上大大提高了重音分类学习和预测的速度,证明了该算法的有效性。3.提出改进的基于半监督策略的SELM极限学习机模型,并且将其用于汉语重音预测。SELM适用于训练样本集中只存在少量的已标注样本的情况。该算法在已标注样本学习基础上,对未标记样本进行置信度阈值检验。检验采用交换训练集和预测集的方法,最终确定高置信度的扩充样本。实验使用SELM算法在未标注样本倍增的前提下进行重音预测,证明了SELM算法在少量标注样本的基础上对未标注样本的分类仍具有较高的正确率和执行效率。该半监督策略的机器学习算法为在减少样本标注工作量的前提下获得大量样本的高效率预测提供了一种有效的解决办法。4.提出以眼动注视特征进行语义重音预测的探索性研究。本文以一组眼动重音预测实验,对使用眼动数据预测情境语料中的语义重音进行了探讨,并使用三种神经网络模型对眼动实验样本进行分类实验。结果表明,眼动注视时长和注视次数等特征和情境语义中的重音级别有相关性。5.引入基于语调叠加的Fujisaki模型的基频建模方法,讨论了基频曲线生成和韵律修改。本文概述了该建模方法的执行流程。即以语调叠加的基频参数化模型——Fujisaki模型为原型,在合成时长归一化的原始语音基础上,总结眼动时长模型的韵律生成和重音预测的结果,提出一种改进的语音合成模型:ED_Fujisaki模型,该模型可以合成带有阅读者主观韵律表达的个性化韵律。
其他文献
包虫病是严重危害人民身体健康和生命安全、影响社会经济发展的重大传染病之一,各流行地区已对包虫病的疾病严重程度展开研究。本文对国内外包虫病疾病负担研究进展进行综述,
随着科学技术的发展,3S技术已经广泛应用于土地利用动态监测中。要实现土地资源的可持续利用,就必须及时了解土地资源状况及其变化情况。辽西北地区以土地沙漠化为主要特征的
根据翻译的功能对等原则,对汽车商标翻译总结出了转译、直译、音译、意译和音意译等五种翻译方法。指出无论以哪种方法翻译,都应考虑文化寓意,以达到促销的目的。
农民养老问题是现阶段我国农村迫切需要解决的重要问题之一。本文首先从历史的角度考察了我国农民养老保障的变迁,继而以四川省隆昌县为具体实例,从社会养老、社区养老和家庭
通常采用低水胶比、掺加高效减水剂和大掺量超细掺合料可有效改善混凝土水泥石、界面过渡区两个微结构,大大提高混凝土密实度,使混凝土强度、抗渗性、抗侵蚀性高性能化,特别是复
农村金融改革是中国金融改革的重要内容,也是解决"三农"问题的重要步骤。健全农村金融基础服务体系,充分发挥各类农村金融组织作用,加快建立健全适应"三农"特点的多层次、广
从中国宏观经济社会发展全局来看,中部六省(安徽省、湖南省、江西省、河南省、山西省、湖北省)是促进东西融合、协调发展的关键。然而直到21世纪初期,面对东部地区经济发展的
<正>将滨海新区建成北方国际航运中心和物流中心,是全面提升滨海新区服务功能与水准的重大战略举措。如何又好又快地建设两个中心,需要在策略层面进行科学的选择。国际航运中
分析数控铣床加工时刀具产生径向跳动的原因,找出减少刀具径向跳动的具体方法。如:使用锋利、强度大的刀具、刀具的前刀面要光滑、吃刀量选用要合理、合理使用切削液等。
农村能源特别是家庭生活用能问题长期困扰着我国农村的发展,能源的短缺和社会经济发展、环境保护的矛盾日益突出。本研究以四川省凉山州宁南县为例,以该县家庭能源消耗的调查为