基于深度学习的远场语音识别技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 6次 | 上传用户:bin_go_0820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类最主要的交流方式,人类通过语音传递讯息、表达情感。随着计算机技术的发展,我们开始研究如何让计算机能够“听懂”人类的语言,于是语音识别应运而生。一直以来,语音识别都被看做是连接人与机器之间的纽带和桥梁,它能够帮助人们简化工作流程,提升工作效率,使人机交互变得更加便捷、高效。因此在很多领域都得到广泛的使用,并且在许多未开发的领域有很大的发展前景。远场语音识别是语音识别领域的重要分支。该技术在智能家居、会议转录、车载导航等场景都有重要的应用。远场语音识别是指将远距离场景下(通常为1m-10m)接收到的语音转化为计算机可读内容。但是由于远场情况下会存在混响、回声甚至人声干扰,导致语音识别率大幅下降。针对上述情况,本文开展工作如下:1.针对加权预测误差技术(Weighted Prediction Error,WPE)迭代复杂、效率低以及无噪声假设等问题,本文提出了一种用长短时记忆神经网络(Long Short Term Memory,LSTM)来估计WPE的语音增强算法。通过训练LSTM来得到语音的理想比率掩蔽(Ideal Ratio Mask,IRM)抑制噪声以满足无噪声假设,再通过IRM估计期望的语音频谱的方差,最后根据WPE算法计算出估计的语音。实验证明,使用LSTM来计算WPE减少了计算时间并且在语音质量方面得到明显提升。2.针对波束形成对特定噪声抑制能力不强,存在残留噪声的问题,本文提出一种基于深度神经网络(Deep Neural Network,DNN)维纳后置滤波的语音信号增强技术。本文使用远场语音的幅度谱训练DNN得到纯净语音和噪声的谱估计,之后通过计算维纳增益函数得出网络的输出即增强的语音幅度谱,用近场语音监督训练,通过误差反向传播更新网络权值。此外还考虑了语音信号帧与帧之间的关联性,改进传统DNN的目标函数。实验证明,DNN后置维纳滤波进一步抑制了噪声提高语音质量,目标函数的优化使DNN获得对远场语音更好的建模效果,在语音识别率上有明显提升。3.针对语言模型对远场对话语音中高频词汇建模能力不强的问题,本文对于语言模型进行改进,提出一种优化的循环神经网络语言模型(Recurrent Neural Networks Language Model,RNNLM)。该方法应用快速边缘适应技术(Fast Marginal Adaption,FMA)将来自基线系统的RNNLM概率乘以特定于每个单词的因子并重新归一化。这些因子由使用转录文本训练的DNN估计得到。实验证明,自适应的RNNLM的困惑度更低,在解码时正确率更高。
其他文献
得益于传感器技术的发展,数据存储的形式多以图像、文本、声音、纹理等多种模态存在。传统的机器人感知学习仅包含视觉模态的图像分类、像素分割、目标检测等任务。随着对机器人灵活性需求的不断增加,多模态机器学习方法逐渐成为了分析、挖掘和应用海量多模态数据的有效工具。经典的机器学习方法一般是引入耗时长、难收敛、成本高的深度结构。不久前,陈俊龙等人提出了一种新颖的可替代神经网络:宽度学习系统(broad lea
一个幽灵,一个名为IP的幽灵,在“互联网+”的时代徘徊。似乎所有人都知道点什么,但又没人看得清泡沫之下的边缘在什么地方。这种迷惑很大程度上来自概念的混沌,而网络又进一步加
报纸
大学语文教学在高职高专教育教学中有不可忽视的地位,承载着培育语文能力和提高文化修养的双重职能。根据高等职业教育的培养目标要求,有必要改革大学语文课程的内容编排,采
今年春天以来,我国电子商务的发展进入了一个"黄金期".电子商务所具有的不受时间、空间限制和无需人员直接接触的优势,在今年"非典"期间凸现出来,我国的电子商务在这一次偶然
这几天,一条“医学生论文致谢林俊杰”的话题被推上新浪热搜。这一事件的主人公是来自浙江大学医学院的研二学生胡江华。5月2日,她在世界科学界最权威的期刊数据库SCI中发表了
报纸
如何利用社会网络信息来寻找一个合作高效、高质量的团队,已成为热门的研究话题.但现有团队生成问题中对个体拥有技能的度量大多都采用0-1方式,而在实际应用中如何界定个体是
随着城镇化的加速前进,我国正面临着城市用地需求、生态保护以及耕地安全三者之间的矛盾。解决这三者之间矛盾的有效途径是城市土地不但要发挥土地的承载功能,而且要突出土地的生态功能,合理配置土地资源,优化土地利用布局,以集约换取生态空间,以生态提升集约水平,实现城市土地集约与生态协同利用,促进城市健康可持续发展。本文按照地形地物的边界一致性、行政区划的相对完整性和基准地价的一致性等原则初步划分若干功能区为
杉木(Cunninghamia lanceolata)是我国亚热带地区重要造林树种,地力衰退和养分归还慢是限制杉木人工林持续生产力维持的重要因素,而凋落物分解释养是杉木林养分归还土壤的重要途径。在人工林集约经营模式下,施肥(N、P添加)成为改善林地养分供应和维持生产力的重要措施,但施肥会同时改变凋落物分解的内在和外在条件影响分解过程。目前,由N、P添加引起的凋落物质量变化导致的凋落物分解过程的改变
今年年初以来,17万立方米级大型液化天然气(LNG)船市场出现了一波“小阳春”。截至8月,今年全球成交17万立方米以上LNG船新船订单已达到35艘。作为“明珠船型”,LNG船订单的猛增吸
学位
对于直流馈入受端电网,避免换相失败与维持电压稳定是两个重要问题。为降低换相失败发生风险,实际直流控制系统通常配置有换相失败预测控制功能模块。扰动过程中,预测控制通过减