基于深度神经网络的远场语音识别声学建模研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：mbranger

【摘要】

：

近年来，随着计算机技术和深度学习理论的发展，基于深度神经网络(DNN)的声学建模方法获得广泛应用，相较于传统的高斯混合模型-隐马尔科夫模型(GMM-HMM)，其显著提升了语音识别系统

【作者】

：

张宇

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

远场语音识别声学模型注意力机制空间特征补偿深度神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着计算机技术和深度学习理论的发展，基于深度神经网络(DNN)的声学建模方法获得广泛应用，相较于传统的高斯混合模型-隐马尔科夫模型(GMM-HMM)，其显著提升了语音识别系统性能，识别系统在说话人距离麦克风距离较近的近场场景下已具有较高的识别准确率。与此同时，语音识别的研究热点转向了更加实际也更具挑战性的远场语音识别(DSR)。在说话人距离麦克风较远的远场环境中，语音信号受到噪声、混响以及非目标人声干扰等因素影响，导致识别准确率大幅度降低。本文对基于深度神经网络的远场语音识别声学建模技术展开研究。为提高远场语音识别性能，本文分别从声学模型的网络结构、输入特征以及训练目标值三个方面进行研究。本文的主要研究工作和创新点包括:　　1.提出一种基于注意力长短时记忆(LSTM)神经网络和多任务学习的声学建模方法。基于深度神经网络的声学模型一般将上下文多帧特征简单地拼接作为输入，缺点是忽略了对每帧特征本身所包含的时间信息的利用，因为不同时刻的特征对于当前时刻状态预测的贡献不一定是相同的。为此，本文针对基于LSTM的混合声学建模框架提出一种注意力机制，自动学习调整对上下文扩展输入特征的关注度。同时，在模型训练阶段采用联合预测声学状态和干净特征的多任务网络结构，来进一步提升声学模型在远场场景下的鲁棒性。　　2.提出一种基于空间特征补偿的多通道声学建模方法。远场语音识别系统通常采用多个麦克风录制语音信号。与采用单个麦克风相比，其优势在于可以提供目标说话人的空间信息。传统的多通道语音识别系统一般采用两个独立的系统模块，即前端的多通道语音增强和后端的语音识别器。然而，当最终目标为提高语音识别准确率时，将增强模型独立于声学模型单独优化并非最优解决方案。为解决此问题，一些研究者提出前后端联合优化的方法。但是，这些方法一般需要引入若干层神经网络来估计波束形成的滤波系数，导致最终用于识别的模型参数量较大。本文中，我们提出将编码声源位置信息的信道间相位变换广义互相关(GCC-PHAT)做为空间特征补偿，与多通道声学特征拼接输入深度神经网络声学模型。该方法通过利用神经网络输入特征的灵活性，有效地提高了深度神经网络对多通道语音信号的声学建模能力。与此同时，将此方法与之前提出的注意力机制相结合，系统性能得到进一步提升。　　3.将教师学生迁移学习框架应用于远场语音识别声学建模。远场语音信号受噪声和混响等因素的干扰，不同声学单元之间的区别性变得模糊。若仍然采用强制对齐得到的0-1分布做为目标值，基于深度神经网络的声学模型很难学习。因此，含有更丰富信息的软判决标注更适合远场语音声学模型的训练。为得到可靠的非0-1分布目标值，本文挖掘与远场语音同步录制的近场语音信号中蕴含的信息，利用教师学生迁移学习框架训练远场语音识别声学模型。实验结果显示，与0-1分布目标值训练的声学模型相比，该模型在远场单通道和多通道语音识别任务上均取得了性能提升。与上述提出的两种方法结合后，识别系统可获得进一步的性能改善。

其他文献

中小型水利水电工程施工风险管理研究及应用研究

本文通过对荣华二采区10

期刊

Turbo码在超宽带系统中的应用分析

超宽带无线通信技术是一种全新的无线电技术,是无线通信领域的一次重大进步。它具有许多独特的优点,如通信容量大、低截获/检测概率、频带很宽、有很强的抗多径干扰能力和分

学位

Turbo码超宽带系统接收检测Rake接收机Matlab软件

浅析工商管理对提高企业管理水平的作用

随着我国经济建设的不断发展以及市场经济国际化的不断拓展,企业在更加复杂的市场环境下的管理模式成为来也发展建设的首要也对,除了企业自身经营活动的管理内容外还需要加入

期刊

工商管理企业管理水平

LDPC码的研究

该文对LDPC码进行了系统的研究.首先介绍了LDPC码的结构,分析了非正则码和多元域编码的性能成因及图结构对码性能的影响,并给出了LDPC码的一些构造方法;然后介绍了LDPC码的译

学位

LDPC码正则码非正则码二分图MessagePassing算法BP算法贪心算法

一种新型铯钟频率合成源的设计与实现

该论文主要研究适用于铯原子频率标准(铯钟)的微波激励信号和标准频率信号的产生方法,提出了一种设计新颖、高性能的频率合成方案,重点介绍了采用该方案研制的频率合成源的工

学位

铯钟频率合成源微波激励信号标准频率信号

公立医院固定资产管理之探讨

随着我国医疗体制改革的不断深入,公立医院的管理模式迫切需要转型升级,而固定资产管理水平提升则是本次转型升级的重头戏.本文阐述了公立医院做好固定资产管理的重要意义,分

期刊

公立医院固定资产管理瓶颈对策措施

房地产项目施工阶段风险管理研究

本文通过风险管理方法在实践中的切实应用,以达到减少项目施工阶段成本的目的.通过使用风险管理的研究方法,对多个住宅房地产项目施工阶段情况进行研究,对项目施工阶段进行风

期刊

施工阶段风险管理房地产项目

“放管服”视角下如何做好大科学装置所资产管理

本篇文章主要介绍放管服视角下如何进一步做好大科学装置单位的资产管理.分析了大科学装置单位资产的主要特点,管理方面存在的现状及问题,立足于中国科学院近代物理研究所的

期刊

放管服大科学装置国有资产

基于Voice XML的交互式电话信息系统的研究与实现

该论文在前人所完成工作的基础上,对国内CTI技术领域的历史、现状、特点及主要应用作了全面系统的综述;对国内Voice XML的发展历史、国内现状、特点、优点及主要应用作了全面

学位

计算机电信集成Voice XML语音交互界面DCOM语音应用技术语音识别测试平台Voice XML网关

公立高等院校内控建设探索

内部控制理论在企业已经发展的如火如荼,行政事业单位的内控至今仍然还在探索.公立高等院校受制于本级政府,又有高校宽松自由的文化特色.如何进行内控建设是个值得讨论的问题

期刊

公立高等院校内控建设全员参与

基于深度神经网络的远场语音识别声学建模研究

与本文相关的学术论文