论文部分内容阅读
伴随信息技术、人工智能的不断发展,语音合成在人机交互技术中受到越来越多的重视。但目前语音合成的主要问题在于合成的自然度、表现力不够,还不能接近自然语言的标准;同时语音合成的人机交互方式较为单调,缺乏使用者主观驱动的机制。本文首先对语音合成的历史发展进行了介绍,并总结了语音合成的一般过程,进而指出影响合成效果的重要环节是语音合成时的韵律生成模块。在深入研究的基础上,认为一方面可以引入新的人机交互手段来丰富语音合成的形式,提出了利用阅读时人的眼睛活动规律,主观控制驱动韵律生成;另一方面又充分利用机器学习的方法挖掘韵律规则,建立模拟精度更高的韵律模型。时长模型和重音模型是韵律生成要解决的关键问题。在时长韵律模型方面,提出了用阅读时的眼动注视时长,对合成语音的发音时长进行同步控制的思路。人的眼动阅读过程是一个综合、多因素交叉作用的复杂过程,如注视、眼跳、回视等;且语音编码和眼动控制是两个并行的独立系统。因此研究人眼驱动的“眼动时长”,就要权衡各种因素的影响,获取人眼注视的时长规律,以此作为眼动时长建模依据。在重音韵律模型方面,提出ELM极限学习机和半监督SELM机器学习方法用于重音预测,并通过实验进行了比对验证。本文还对语义重音的预测进行了探索性研究,由于语义重音取决于人的主观意识表达,本文尝试统计分析人的眼动信号与重音的联系,实验结果表明眼动注视时长和注视次数等特征和情境语义中的重音级别有相关性。围绕以上几个方面,本文的主要工作和创新点如下:1.提出利用人阅读时的眼动信号来驱动语音合成的方法,将眼动控制引入到语音合成的人机交互中。该方法对丰富人机交互的形式,或者残疾人辅助语音交互方面都有广泛的现实意义和应用前景。基于对现有的三种眼动控制模型的分析和内隐韵律阅读的特点,着重剖析了眼动阅读过程中,对文字的语音加工系统和眼动控制系统的相对独立性;证明了在文本熟悉度一致的条件下,阅读的眼动注视时长窗口和内部语音的发音时长窗口的同步关系;在此基础上提出了基于汉语层级韵律结构的眼动时长模型。该模型改变了以往对语音时长采用机器学习、概率预测的方法,倾向于捕获阅读者真正的内部阅读韵律,合成带有个性化节奏的语音。2.提出单隐含层前馈神经网络ELM极限学习机用于汉语重音预测。ELM极限学习机继承了传统神经网络泛化性能好的特点,使用单隐含层连接输入和输出权值矩阵。该算法可以适应任意输入权值和偏置向量,具有更强的泛化能力和更低的算法复杂度。实验分别使用ELM极限学习机和以RBF为核函数的SVM两种机器学习算法进行了汉语重音预测实验;对比了重音预测的正确率和算法执行时间;实验数据表明,该神经网络模型在保证预测精确度的基础上大大提高了重音分类学习和预测的速度,证明了该算法的有效性。3.提出改进的基于半监督策略的SELM极限学习机模型,并且将其用于汉语重音预测。SELM适用于训练样本集中只存在少量的已标注样本的情况。该算法在已标注样本学习基础上,对未标记样本进行置信度阈值检验。检验采用交换训练集和预测集的方法,最终确定高置信度的扩充样本。实验使用SELM算法在未标注样本倍增的前提下进行重音预测,证明了SELM算法在少量标注样本的基础上对未标注样本的分类仍具有较高的正确率和执行效率。该半监督策略的机器学习算法为在减少样本标注工作量的前提下获得大量样本的高效率预测提供了一种有效的解决办法。4.提出以眼动注视特征进行语义重音预测的探索性研究。本文以一组眼动重音预测实验,对使用眼动数据预测情境语料中的语义重音进行了探讨,并使用三种神经网络模型对眼动实验样本进行分类实验。结果表明,眼动注视时长和注视次数等特征和情境语义中的重音级别有相关性。5.引入基于语调叠加的Fujisaki模型的基频建模方法,讨论了基频曲线生成和韵律修改。本文概述了该建模方法的执行流程。即以语调叠加的基频参数化模型——Fujisaki模型为原型,在合成时长归一化的原始语音基础上,总结眼动时长模型的韵律生成和重音预测的结果,提出一种改进的语音合成模型:ED_Fujisaki模型,该模型可以合成带有阅读者主观韵律表达的个性化韵律。