深度学习语音识别系统中的自适应方法研究

来源 :中国科学技术大学 | 被引量 : 4次 | 上传用户:ssdmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是最快速、便捷的人机交互方式,语音识别技术是人工智能的重要组成部分。随着深度学习技术的进步,语音识别在多数场景中取得了接近人类的识别准确率,但是在说话人带有方言和口音、复杂环境噪声和专业领域等特殊场景下,语音识别的准确率会显著下降,影响用户的使用体验。语音识别自适应技术是提升特殊场景下语音识别准确率的有效手段之一,因此一直是语音识别领域的研究热点。相比传统语音识别系统中的自适应技术,深度学习语音识别系统中的自适应存在着模型参数庞大,而数据量相对较少等特点,这使得深度学习语音识别系统中的自适应成为一个研究难题。本文针对这些难题,在声学模型在线自适应、低资源下声学模型离线自适应、无监督声学模型离线自适应和语言模型自适应方面开展了研究工作,并将研究成果应用于实际语音识别系统中。本文的研究工作依托科大讯飞股份有限公司所承担的科技部国家重点研发计划重点专项课题《未知场景下的语音识别与意图理解》(课题编号:2018AAA0102204)进行。本文的具体研究内容包括:研究了声学模型在线自适应技术。针对声学模型在线自适应对于实时性要求极高,并且因缺乏自适应训练数据而导致自适应效果有限等问题,本文提出了基于注意力机制的声学模型在线自适应方法。利用预先训练好的说话人识别模型抽取海量说话人的特征表达并进行聚类,得到一组说话人特征基向量作为外部记忆单元;利用注意力机制实时快速的从记忆单元中挑选与当前语音段最相近的说话人基向量,并加权得到当前语音帧所对应的说话人特征表达,用于声学模型在线自适应。在此框架的基础之上,我们引入了固定大小顺序遗忘编码机制,同时提出了多级门控连接机制、说话人分类目标辅助训练和残差向量说话人特征表达,进一步的提升了声学模型在线自适应的效果。我们分别在中文和英文语音识别两个代表性数据集上进行了实验,实验结果证明了该方法能够在基本不增加语音识别计算复杂度的情况下,大幅提升声学模型在线自适应的效果。研究了低资源下声学模型离线自适应技术。针对低资源下声学模型离线自适应容易过拟合而导致泛化能力差的问题,本文提出了基于多任务学习的说话人编码方法,以及基于奇异值分解和矢量量化的自适应方法。首先,针对传统基于说话人编码的自适应方法进行了分析并指出了其中的不足;其次,针对性的引入了额外的说话人分类目标对说话人编码向量进行多任务学习,以提升该方法对于新说话人的泛化能力;然后,将说话人编码向量扩展成说话人编码矩阵以增强自适应的作用,并使用基于奇异值分解的自适应参数初始化。同时,为了能够充分压缩自适应的参数量,引入了矢量量化技术,并同步进行矢量量化训练与自适应,以减少矢量量化所带来的效果损失。在真实的语音识别数据集上,这两种方法在低资源情况下均取得了更好的自适应效果。研究了无监督声学模型离线自适应技术。针对无监督声学模型离线自适应相比有监督自适应效果损失严重的问题,本文首先提出了利用人机交互过程中的用户确认文本来帮助提高自适应数据机器标注准确率的方法;然后提出了一种基于确认模型的声学置信度方法,通过设计多种统计特征用于置信度模型的训练,直接判断当前词是否识别正确,从而显著增强了置信度与语音识别准确率之间的相关度,使得通过该置信度方法可以更好的进行自适应数据的挑选,提升机器自动标注的准确率;最后,本文跳出了传统无监督自适应方法的束缚,提出了一种基于元学习的无监督自适应方法,直接以无监督自适应后的模型在测试集上的效果为训练目标,来对通用模型进行调整,使得经过元学习后的通用模型按照预设的自适应方法能够在测试集上获取最优的效果。实验结果表明,本文提出的方法均能大幅提升无监督声学模型自适应的效果。研究了语言模型自适应技术。针对语言模型自适应数据稀疏、缺乏有效的自适应方法的问题,本文提出了基于用户修改词的N-gram语言模型自适应方法,通过从用户修改行为中挖掘用户关键词并在解码过程中进行动态激励,实现了N-gram语言模型高效快速的自适应。在保证低误触发率的前提下,该方法大幅提升了用户关键词的识别准确率。针对领域信息未知情况下的神经网络语言模型的自适应难题,本文提出了基于无监督聚类的神经网络语言模型自适应方法,通过无监督聚类对训练文本数据进行划分并训练类别专属语言模型,并利用隐层共享机制缓解类别专属语言模型训练数据稀疏的问题。在解码过程中,通过动态挑选多个类别专属语言模型的输出概率进行加权,达到提高语言模型输出概率可信度的目的。在真实的语音识别数据集上验证了本文提出的方法的有效性。在上述研究工作的基础上,介绍了自适应技术在真实深度学习语音识别系统中的应用情况。针对语音输入法场景,本文设计了语音识别云服务中声学模型自适应的服务架构,包括声学模型的自适应训练模块和自适应后声学模型的解码模块。同时,设计了“即修即改”的语言模型快速自适应功能,使得系统在语音识别错误被用户修正后可以迅速学习改进。
其他文献
本文是根据我院电子技术课程学时少,内容多,要求高的特点,在电子技术实验教学学时安排和内容上,作了更为合理的设置,并将实验单独设课,同时开展电子技术应用第二课堂,实验教学取得较
在进行信号波形的综合变换时,由于顺序的不同可能会发生错误,利用本文揭示的逆四则法则,可以正确处理波形综合变换的问题。
经省人民政府五月三日研究决定,任命:舒圣佑、程安东为省长助理;朱良福为省农牧渔业厅副厅长;张廷杰为省林业厅副厅长;朱受群为省文化厅副厅长;孙辉民为省石油化学工业厅调研
尊敬的各位来宾,各位朋友:青海大学在省委省政府的正确领导下,在短期内实现了跨越式发展。尤其在过去的几年里,清华大学响应并积极推进国家西部大开发战略,对青海大学实施对口支援
<正> 对于腰椎椎间盘突出及其术后复发的患者并用柴苓汤、桂枝茯苓丸加薏苡仁,并探讨了治疗效果。治疗对象为腰椎椎间盘突出患者11例(年龄31~80岁,男3,女8),腰椎椎间
目的:对比分析用芬太尼和瑞芬太尼对进行手术的患者实施麻醉诱导的临床效果。方法:对近年来在我院进行手术治疗的78例患者的临床资料进行回顾性研究。我们将这78例患者随机分为
各行政公署,各省辖市、计划单列市人民政府,各县(市、区)人民政府,省政府各有关部门:去冬以来,我省农田水利建设总的进展情况是好的,至去年底,全省已完成土石方一亿一千六百
目的测定高海拔地区藏、汉族肝硬化及非肝硬化患者血清瘦素(Leptin)水平,并探讨血清瘦素与肝硬化之间的关系。方法选取2009年1月~2011年3月青海省高海拔地区(海拔2085—4273m)71例
目的 :研究心理干预对慢性支气管炎急性发作期患者生活质量的影响。方法 :将如皋市中医院近年来收治的82例慢性支气管炎急性发作期患者随机分为常规护理组(C组)和心理干预组(
半刚性基层沥青路面的早期病害严重影响其使用寿命,裂缝及层间的剪切、滑移是造成早期破坏的主要原因。裂缝及层间接触状态成为了沥青路面应用的技术难题。为此本研究提出沥