多重影响因素下的语音识别系统研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 4次 | 上传用户:gtfzwcb2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于实际应用的声学环境非常复杂,存在环境噪声、远场、窄带等多种干扰因素,语音信号易受到这些因素的影响而发生变异,导致传统基于听觉模态的自动语音识别(Automatic Speech Recognition,ASR)系统的性能下降,不能满足实际应用需求。人类言语交流行为的研究发现,人类大脑对言语的理解不仅仅依赖于声音,而是会结合视觉通道信息,如嘴唇发音运动轨迹,交互并发处理后得出合理的一致的解释。另有研究表明,视觉信息和听觉信息具有互补性,在复杂声学环境下,视觉信息的互补部分会明显提高语音的感知性能,符合人类的双模态感知方式。此外,大量研究表明,基于双模态的视听语音识别(Audio-Visual Speech Recognition,AVSR)系统在很多实际应用中均优于ASR系统。因此,AVSR系统已逐渐成为研究热点。然而,AVSR系统在实际环境中仍存在应用瓶颈。一方面,建立一个鲁棒的AVSR系统需要大量的视听觉训练数据,而对比广泛可用的语音数据,视听并行数据大量采集代价昂贵。另一方面,使用传统的AVSR系统进行识别时,需要同时输入视听并行数据,但在多数实际使用环境中只有语音数据可用,缺少视觉信息。这些问题阻碍了AVSR系统的广泛应用。因此,本文针对上述问题,构建一种新型的AVSR系统框架,通过在语音识别系统声学建模时加入自动生成的视觉信息,从而提升其在复杂声学环境中的鲁棒性。本文的主要研究成果和贡献如下:(1)提出一种基于卷积神经网络(Convolutional Neural Network,CNN)的视听融合方法。利用独立的CNN结构,实现视听觉的独立建模和异步性信息传递,并获取视听并行数据在高维特征空间中的描述;然后通过紧随其后的共享全连接结构,实现在更高维度中对视听并行数据的长时间依赖关系进行建模。实验表明,对比传统的视听融合方法,使用基于CNN的视听融合方法建立的AVSR系统能获得显著性能提升,其识别错误率相对下降约15%。本文所提出的视听融合方法可针对视听并行数据之间的独立性、异步性以及长时相互依赖性进行建模,对于基于深度学习的视听融合方法的进一步研究具有重要意义。(2)提出一种基于视觉特征生成的双模态建模方法。使用有限的视听并行数据,结合基于双向长短时记忆网络(Bi-directional Long Short-Term Memory Recurrent Neural Network,BLSTM-RNN)的方法,构建听觉特征到视觉特征的生成模型;然后利用该生成模型自动生成大量视觉特征,结合基于CNN的视听融合方法,进行双模态建模。实验表明,当生成模型的训练和测试声学环境一样,只需使用少量的视听并行数据,结合所提出的基于视觉特征生成的双模态方法,可建立一个鲁棒的AVSR系统,其识别错误率较基线系统相对下降约11%。基于视觉特征生成的双模态方法可有效解决实际使用环境中的视觉信息缺失问题。(3)提出一种基于多层级自适应深度网络的跨域自适应方法。实际语音数据与视听并行数据的域不匹配问题将导致不可靠的视觉特征产生,最终引起识别系统性能下降。为此,本文提出一种新型的跨域自适应方法:通过多层级自适应深度网络,获取与实际使用环境匹配的声学特征描述;然后使用这些特征描述作为生成模型的额外输入以缓解域不匹配问题,实现由广泛可用的实际语音数据自动生成大量可靠的视觉数据。实验表明,由于域不匹配问题的存在,视觉特征生成方法直接应用于AVSR系统,并不能提升系统鲁棒性;而结合跨域自适应方法训练得到的语音识别系统能获得显著的性能提升,其识别错误率较基线系统相对下降10%以上。该方法首次应用于AVSR领域,降低了传统AVSR系统对大量视听并行数据的依赖性,使得AVSR系统可在只有语音输入情况下使用,推广其实际可应用性。
其他文献
目的探讨我国长寿地区中老年人群传统心血管疾病(cardiovascular disease,CVD)危险因素与慢性肾脏病(chronic kidney disease,CKD)的关系。方法选取7个中国长寿之乡的所有百
受拟态环境的影响,绝大多数人的反应不是来自于客观事实或直接经验,而是来自新闻媒介所营造的拟态环境。同时,加之性少数群体的社会边缘化属性,社会公民对这一群体的认知主要
受经济发展趋势的影响,传统制造行业已经无法满足当前复杂多变的市场需求,在原材料价格上涨,供过于求的经济市场,传统制造行业收到很大的冲击,所以传统制造业应加大科学性投
高效液相色谱法(High Performance Liquid Chromatography,HPLC)的研究应用一直在化学分析分离中发挥着重要的技术指导作用,例如在石油业、化工业、医药卫生以及生命科学等科学
目的分析延伸护理在小儿肺炎护理中的应用价值以及效果评价。方法选取我院于2018年1月至2019年1月收治的520例小儿肺炎患者。按照不同护理方式将其均分为实验组(260例,采用延
报纸
本文从英语专业学生就业和人才市场对高职英语专业毕业生需求的角度来探讨如何加强学生英语综合能力和实践能力的培养,如何进行英语课程设置的改革,从而能促进毕业生就业。本
预应力混凝土预制箱梁具备刚度强和性能好的特点,加之能够使用较为复杂且稳定性较高的桥梁建设工程,使其在桥梁建设工作得到有效利用。但由于桥梁结构、施工工艺和建筑材料、
农业既是温室气体排放来源产业,又是最易遭受气候变化影响的产业。我国作为一个发展中农业大国,农业可持续发展和粮食安全面临着气候变化的严峻挑战。要从根本上解决碳排放问题
商业银行是出售金融产品的特殊企业,而所有这些产品的制造都是建立在风险的基础之上。没有了风险就没有了银行存在的理由,重要的在于银行接受什么水准的风险并有能力去管理它。