低资源环境下的语音识别技术研究

来源 :解放军信息工程大学 | 被引量 : 7次 | 上传用户：weilai2010

【摘要】

：

目前的语音识别技术依赖于大量的数据资源,在低资源环境下,语音识别系统的性能将明显下降。世界上总共约有6900种语言,仅有为数不多的几种语言(如英语、汉语普通话等)具有充

【作者】

：

舒帆

【出处】

：

解放军信息工程大学

【发表日期】

：

2017年01期

【关键词】

：

低资源语音识别长短时记忆表征共享迁移数据扩展字典扩展

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前的语音识别技术依赖于大量的数据资源,在低资源环境下,语音识别系统的性能将明显下降。世界上总共约有6900种语言,仅有为数不多的几种语言(如英语、汉语普通话等)具有充足的数据资源,大部分语言都是低资源的。随着经济全球化的深入发展,语音识别技术的应用不再局限于英语、汉语普通话等高资源语言。如何在低资源环境下构建高性能的语音识别系统已成为国际上的研究热点与难点问题。本文主要围绕低资源环境下的语音识别技术展开研究,主要完成的工作如下:(1)提出一种基于LSTM-RNN的低资源语音识别声学建模方法。低资源环境下,充分利用语音信号中包含的各种信息的意义格外重要,而GMM、SGMM和DNN模型受到固定窗长限制,只能对窗内有限时间数据进行建模。因此,本文提出将具有长时信息建模能力的LSTM-RNN网络用于低资源语音识别声学建模。在此基础上再加入序贯区分性训练,利用时序信息辅助模型训练,进行参数调整。方法在Open KWS16评测语料上进行了实验,实验结果表明基于LSTM-RNN的低资源语音识别声学建模方法相比传统方法在低资源下具有更好的性能,系统在连续语音识别任务中词错率(WER)下降了4.4个百分点,关键词检索任务中总体实际查询项权重代价(ATWV)提升0.0241。(2)提出一种基于表征共享迁移和训练数据扩展的低资源语音识别方法。低资源环境下,获取大量有标注训练音频数据十分困难,只能借用其他语言数据或挖掘可用的目标语言训练数据,作为训练数据的补充。本文根据DNN中的表征共享迁移的思想,使用多种其他语言数据训练SHL-MDNN网络,用它提取MBN特征应用于低资源语音识别。此外,本文还提出使用两种不同的策略挖掘可用的目标语言训练数据,实现数据扩展。音频数据扰动方法对现有数据集中的音频数据进行扰动处理,扰动音频与原标注文本在语义上仍保持一致,可以作为新数据加入训练数据集。半监督训练方法用ASR系统对方便获得的无标注语音数据进行识别,将识别结果作为这些数据的标注文本,一起加入训练集。本文通过实验验证了方法的有效性,应用了表征共享迁移和训练数据扩展的低资源语音识别系统WER相比基线系统下降3.8个百分点,总体ATWV提升0.0323。此外,本文还将LSTM-RNN声学建模方法与该方法结合起来综合分析了各种方法的性能,各方法综合使用时系统达到最佳性能,WER相对下降7.2个百分点,总体ATWV提升0.0582。(3)提出一种基于互补有限状态转换器(FST)的发音字典扩展方法。发音字典是语音识别系统的一个重要组成部分,字典资源匮乏词汇量不足将导致高集外词率,降低语音识别性能。本文提出一种自动扩展字典的新方法,该方法不需要大量文本数据来获取新词,而是利用单词发音恢复集外词。首先,利用字典FST表示的互补形式和P2G转换获取新的词-发音对。然后采用一种两步确认策略,即发音确认和单词确认,滤除错误词条。最后,采用语言模型线性内插将生成的新词添加进语言模型中。实验表明,本文字典扩展方法有效降低系统OOV率;英语的连续语音识别性能相对基线系统提升约9%,关键词检索性能约提升9.7%;捷克语系统性能分别提升了2.3%和10.0%。

其他文献

“大图书馆”观智障及对策

新基础教育需要有教育理念、教育目标和培训模式三方面的更新。如何构建师生读者的知识？我国即将加入WTO，在世界经济一体化的今天，以计算机、网络化为中心的知识经济时代，图书馆

期刊

图书馆《帕夫雷什中学》世界经济一体化智障基础教育改革苏霍姆林斯基教育理念教育需要

模糊理论对当前语文教学的启示

一、模糊理论知识背景　　美国加里福尼亚大学的应用数学家、目标控制学家查德,在1965年第八卷第三期的《信息和控制》杂志上刊发了《模糊集合》一文,首先提出用"模糊集合"作

期刊

叶片进口冲角对离心泵空化特性的影响

基于ANSYS CFX软件应用标准k-ε湍流模型、均质多相模型和Rayleigh-Plesset方程对一比转数为89的模型泵在冲角变化时泵内的空化流场进行数值模拟。根据计算结果预测了模型泵

期刊

离心泵冲角空化数值模拟centrifugal pump incidence angle cavitation numerical simulation

核电厂备品备件管理浅析

核电站的技术复杂性、设备可靠性和核安全要求电厂具有一定规模的备件储备,同时,备品备件管理又属于设备管理的子项,受制于设备质量和可靠性、运维模式、采购难以程度和财务

期刊

核电备品备件管理体系技术管理采购仓储nuclear power plantspare partsmanagement systemtechnical

隐性采访的边界

【正】隐性采访在新闻实践中越来越多地运用,尤其在广播电视媒体中,应用率非常高。有学者称,这种采访方式"已经成为焦点类节目的有力武器"。①但是,隐性采访是否有悖于我国的

期刊

隐性采访《中国新闻工作者职业道德准则》显性采访

中国纺织业的骄傲——自主创新的民族品牌SHANGHAITEX

在中国纺织工业协会和兄弟省市相关部门的支持下，经过22年坚持不懈的努力，上海国际纺织工业展览会（SHANGHAITEX）作为中国自主创新的民族品牌，已被海内外业界所认可。作为世界规模

期刊

纺织业纺织行业SHANGHAITEX民族品牌

中西药联用对肛肠术后疼痛缓解作用的临床观察

<正>近年来,我们将复方亚甲蓝注射液联合中药熏洗坐浴用于肛肠术后,结果发现该方法对缓解术后疼痛有较好的效果,现报告如下。1一般资料共选择132例肛肠术后患者。男63例,女69

期刊

肛肠术后疼痛头孢匹胺替硝唑注射液复方亚甲蓝注射液中药复方熏洗

U 型垂直地埋管换热器性能的影响因素分析

为了了解不同的设计参数对于换热器性能的影响，本文通过建立流体力学三维模型模拟了管长60～200m 的地埋管换热器性能。研究结果显示，流体进口温度、流体速度和初始地下温度都对

期刊

U型垂直地埋管换热器性能影响因素vertical ground source U-tube heat exchangerperformanceinflu

市政道路桥梁工程施工质量缺陷成因及防治措施

在市政道路桥梁工程在现代化城市建设中,属于重要内容,其施工质量会对人们的出行安全产生较大影响,因此,需要相关人员,加强对施工过程的全面管理,选择更加科学合理的优化措施

期刊

市政道路桥梁工程施工质量防治

Evolution of lithofacies and paleogeography and hydrocarbon distribution worldwide(Ⅱ)

Based on the compilation and analysis of the lithofacies and paleogeography distribution maps at present and paleoplate locations during six key geological peri

期刊

globallithofaciesandPALEOGEOGRAPHYplateTECTONICSTECTONICEVOLUTIONsource

低资源环境下的语音识别技术研究

与本文相关的学术论文