智能家居环境中个性化语音生成关键技术研究

被引量 : 2次 | 上传用户:xx123321058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网的发展,各种智能家电如音像设备、照明系统、安防系统、自动控制门窗及环境自动调节系统、多功能家用机器人等,通过家居网络平台构建了舒适的智能家居环境。智能家居的普及大大方便了人们的生活。智能家居网络平台中的语音控制技术提高了人与智能家居的信息交互能力和方便性。随着语音识别技术的应用,越来越多的智能家电逐步支持语音控制的能力,目前最新的研究是如何让家居网络平台使用对话系统,让智能家居设备使用与家庭成员相同特征的语音和使用者进行交互,使这些设备具备个性化语音发声的能力,从而提高智能家居使用的趣味性和幸福感。由于家庭成员的语音特征各不相同,此方面的研究仍是一个难题。语音合成技术是语音技术研究的一个重要组成部分,个性化语音生成是语音信号处理领域中一个相对较新的分支。通过个性化语音生成技术,就可以使用目标对象少量的语音数据,生成出具有目标对象个性化特征的语音。目前基于智能家居环境中个性化语音生成技术的研究,存在着当目标对象只有有限的采样语音数据情况下,由于样本数据库较小及计算能力有限,生成出来的语音有机械感,在声调和频谱上失真,语音的自然度和相似度指标低,更不能实现转换输出多种语音或多种方言。所以,研究个性化语音生成技术具有重要的应用价值。目前,在个性化语音生成方法中,以Tokuda、Huang为代表的基于隐马尔可夫模型(Hidden Markov Models,HMM)建模是主流的语音生成方法,但该方法中的混合激励模型中的参数采用了经验值估测,导致生成参数不精确。并且该模型中源说话人自适应特征训练过程不够优秀,损失了说话人的声学特征差异,导致频谱语音特征参数不准确,因此语音的自然度和相似度指标低,需要进一步研究如何提高合成语音的质量。而且在智能家居语音生成技术中,使用多方言和智能家居实现人机对话,方便使用和具有亲切感,因此研究多方言的转换技术具有十分重要的意义。基于以上情况,本文围绕个性化语音生成技术主流的合成模型进行研究,提出了自适应方法和声音转换新技术,主要的研究内容如下:为了提高个性化语音生成的自然度和相似度,减少语音的失真程度,本文改进了混合激励模型中参数的获取方法,以及混合激励模型中的各个带宽的浊音周期性比例提取方法,并将混合激励参数与频谱参数相结合,改进了隐马尔可夫模型的混合激励机制,该机制能明显地改善生成语音的质量。最后,实验结果表明了本文改进方法的正确性和有效性。针对隐马尔可夫模型中,源说话人自适应特征训练过程不够优秀,导致损失说话人声学特征差异的问题,本文提出了基于时变双线性函数的频率弯折方法,改进了源说话人自适应特征训练过程。通过将传统方法与频谱弯折方法进行实验对比,表明本文提出的频率弯折方法可以使源语音频谱更接近目标语音频谱,减少说话人声学特征的损失,所生成的语音在自然度和相似度上均得到提升。为了解决智能家居语音生成技术中多方言的转换问题。本文在分析了经典说话人转换技术的基础上,提出了基于神经网络的跨方言说话人转换系统框架,基于该框架,使用一种预训练方法,完成了基于语音序列感知的神经网络建模。本文实验是以普通话和上海话的转换为例,验证了可以解决个性化语音生成技术中多方言的转换问题。实验结果显示该方法是可行的。本文的主要创新研究成果如下:第一,本文首次系统地分析比较了在混合激励模型中两种周期性比例的提取方法:梳状滤波器、归一化相关系数,并通过基于隐马尔可夫模型的语音合成实验,证明了使用混合激励模型合成的语音质量得到了显著地提高。第二,本文提出的基于频率弯折的说话人自适应方法,可以显著提升个性化语音生成的自然度和相似性。相较于传统方法,本文的方法具有如下创新点:1)在源说话人和目标说话人间引入了最小化加权对数谱距离准则,取代使用最大似然准则对源说话人特征进行转化,这一准则的应用提高了所生成的个性化语音在感知上的相似度。2)引入双线性弯折函数对频域和时域进行平滑转化,函数采用基于帧的弯折因子,更好地保留了语音时变的特征。3)重新训练后的源说话人隐马尔可夫模型获得了更好的初始化。第三,本文首次提出了跨方言语音特征学习模型的方法和准则,实现了不同地方语言的说话人转换。其创新点主要体现在以下三个方面:1)将独立于语言的频率弯折方法应用在跨方言的说话人转换中,从而大大地降低了所需的训练数据量和计算复杂度;2)在神经网络训练中采用了预训练,从而使神经网络的权重能得到比随机初始化更好的起点,从而提高了神经网络训练算法的收敛速度;3)提出了基于语音序列感知的训练准则,该准则能最大限度地减少序列级别的错误,大大提升了跨方言说话人语音转换的性能。本文在个性化语音生成的相关技术方面进行了创新和改进,为智能家居环境中研究语音技术提供了研究思路和应用借鉴。
其他文献
改革以来,河北省养老保障事业取得了重大进展,对保障老年人生活、维护社会稳定、促进经济改革与发展发挥了重要作用。但按养老保障制度改革的目标衡量,还存在一系列亟待解决
随着社会的不断发展与全球化的不断进步,语言是必不可少的交流方式,尤其是在全球化十分火热的今天。英语一直是一种广为大家所熟知的语言,因此,学好英语已经成为了一种趋势。
<正>在综艺选秀、相亲、亲子等电视节目扎堆传播的当下,《中国成语大会》另辟蹊径,在节目中融入了中华传统文化精髓,将文化元素与电视节目形态有机融合,向观众传递了追求人文
本文主要以笔者亲身经历为主,以日本幼儿为对象,分析了日本环境对日本幼儿的影响、日本家庭教育孩子珍惜生命、日本社会培养日本人的乡土情怀以及日本幼儿园进行的关爱节日、
随着蒙古国经济的发展,采矿业飞速发展,尽管国家对这一高危行业进行严格的控制,安全事故还是时有发生,安全事故频发不仅给企业带来巨大的损失,也给员工的生命安全带来了很大
我国工程建设市场的日益规范以及施工企业综合技术水平的发展现状为工程造价咨询企业的发展带来了巨大的发展空间。但是,工程造价咨询企业单一的产品结构以及资金现状使得工
综述了银杏内酯类化合物的化学结构;用高效液相法、气相色谱-质谱联用技术、核磁共振法和薄层色谱法对银杏内酯进行分离与检测。银杏内酯类化合物作为血小板活化因子的高度专属
山西由于特殊的地理位置,成为多民族汇聚融合的要地。历年来的考古发现与文献史料相互吻合,证实了山西在北朝历史发展中的重要作用。从出土遗存来看,汉代起北方游牧民族就不
复习课是巩固和发展知识、技能的重要课型,它是小学英语课堂教学不可或缺的一部分。它能帮助学生对所学的知识和基本技能进行梳理,还能帮助学生加深理解、增强记忆,使知识条
<正> 中国的强震带中国位于世界两大地震带——环太平洋地震带与欧亚地震带之间,受太平洋板块、印度板块和菲律宾海板块的挤压,地震断裂带十分发育。20世纪以来,中国共发生6