语音识别的鲁棒性关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:stinbi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机、穿戴式设备、智能家居和车载设备等的普及,基于智能语音的人机交互技术正越来越引起整个IT学术界及工业界的重视,成为移动互联网领域的绝对热点之一。除了国外的苹果公司的Siri、Google Now、微软必应的语音搜索等产品外,近一两年来,国内也陆续出现讯飞语点、百度语音助手、搜狗语音助手等产品。因为语音交互技术是人类最自然的交流方式,所以让机器能够理解人类的语音已经成为人们的迫切需求。语音识别技术是智能语音产品的一项关键技术。对于这些产品来说,在周边环境比较干净的情况下,语音识别技术往往能够达到实际应用的标准。但是,在周边环境出现噪声干扰的情况下,语音识别技术的效果不令人满意。除此之外,语音中还包含多变的语气、语速、韵律和真实的情绪,以及较严重的协同发音,这都会导致大量的音素级插入、删除和替换现象。因此语音识别系统的鲁棒性问题受到了研究人员的广泛关注。  本文在认真总结了前人研究成果的基础上,对语音识别技术的鲁棒性问题进行了探讨,对与语音识别系统相关的各种特征提取技术进行了详细分析,提出了新的鲁棒性特征提取算法,并从不同的角度,利用模型融合的方法,针对具体任务提出了新的系统框架和模型。进行的主要工作有:  (1)研究了语音端点检测算法(Voice Activity Detection,VAD)的噪声鲁棒性。在特征提取方面,实现了基于短时与长时谱特征融合的语音端点检测算法。该算法不但结合了短时谱峰特征鲁棒性较强的优点,而且还考虑了长时谱散度估计特征能够合并语音上下文信息的好处。在分类建模方面,实现了基于支持向量机与隐马尔科夫模型融合的语音端点检测算法。该算法考虑了支持向量机(Support Vector Machine,SVM)具有区分性强以及非线性等优点,以及隐马尔科夫模型(Hidden Markov Model,HMM)能够对上下文关联进行建模的优势。在结合特征与模型的方面,实现了基于融合短时与长时谐波峰的两层区分性权重训练框架的语音端点检测算法。该算法不但结合了短时与长时谐波峰的优势,而且还在一个区分性框架下同时考虑了观测和频点的权重分配问题。在背景噪声干扰的环境下,这三种算法都提高了语音端点检测的性能。  (2)实现了基于语音划分的标准化能量特征提取算法。该算法将语音划分为浊音、清音以及静音,针对不同的语音采用不同的处理方式来提高语音识别的准确率。传统的标准化能量特征提取方法基于噪声平稳的假设。当遇到非平稳噪声时,条件并不满足标准化能量特征提取方法的假设。在这种情况下,标准化能量提取算法的优势就不能够充分发挥出来。因此,本研究提出了应用加权的谐波噪声模型来弥补这一缺陷。同时,该算法也通过VAD排除静音的干扰来分析了在带背景噪声的情况下VAD对于语音识别的性能的影响。通常情况下,如果VAD的性能更好,语音识别的效果也会更好。  (3)实现了基于深度神经网络(Deep Neural Network,DNN)与隐马尔科夫模型融合的面向发音学知识的建模算法。该算法不但利用了DNN所具有的特征学习的能力,而且结合了HMM所具有的建模上下文关联的能力。建立的发音学模型能够在音素网格重打分的过程中提高中文语音识别的性能,词错误率相对下降6.93%。在此基础上,提出了基于谐波谱相关函数的清浊度量特征提取算法,并且使用异方差线性判别分析将提取的清浊度量特征与传统的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCCs)特征进行了合并。合并过后产生的新特征具有更强的区分性,从而进一步提高了语音识别的性能,词错误率相对下降了22.75%。  (4)搭建了一套服务于无人车的交通广播语音识别与抽取系统。该系统包含离线处理和在线实时处理两个部分。离线处理系统包含交通路况信息采集、定时录音、广播音频分割、基于HTK的广播语音识别、交通路况信息抽取等模块,其作用主要是收集交通路况文本和含路况信息的交通广播语音。其中文本语料可用来建立与交通路况领域相关的词典,而交通广播语音语料可用来训练声学模型。在线处理系统包含广播语音播放与波形显示、语音端点检测、基于Kaldi的语音识别、交通路况信息抽取等模块。目前,本系统已经能对交通广播语音中的路况信息进行实时识别与抽取,从而能够为无人车提供路况引导信息,辅助无人车进行智能行驶决策。
其他文献
随着社会的发展与进步,人们不断涉及和需要解决很多复杂的实际应用问题。传统的方法对于一些复杂的问题不能求得很好的解,所以演化算法得到了很大的重视,取得了很大的发展。演化
随着人类对地下水资源的无节制开采,地面沉降、水资源短缺等一系列环境问题越来越严重,如果不加以制止,后果将不堪设想。地下水资源的可视化是挖掘地下水隐含信息,实现地下水资源
随着网格技术的不断发展,各种类型的网格应用被开发部署,网格应用的多样性导致网格系统设计的复杂性。网格系统不仅需要提供对网格应用的管理支持,还需要提供对应用运行时的管理
本文主要解决了个人网络计算环境中以个人为中心访问、组合和共享数据时遇到的问题。以个人为中心的特征包括用户拥有独立的数据空间,自主向数据空间中添加、命名、组合和共享
发布/订阅系统作为一种信息交互和共享的中间件,在信息的生产者(发布者)和消费者(订阅者)之间提供了一个松耦合的信息分发手段。在发布/订阅系统中,订阅者以订阅的形式向系统声
下一代移动通信网络将是一个多种无线接入技术并存且相互融合的异构网络。在对异构网络的研究中,如何利用多模终端来提供方便、快捷、无缝的接入体验,已逐渐成为当前的一个研究
随着软件应用领域的不断扩展,社会对软件产品的需求也在急剧膨胀。经过近三十年的锤炼与积累的经验教训,软件组织已不再以开发出满足用户需求的产品作为唯一的项目成功目标,而是
无线Mesh网络(Wireless Mesh Networks,简称WMNs)是一种基于多跳路由、对等技术的新型无线网络结构,通常是由多个Mesh路由器节点通过无线多跳、自组织的方式相互连接而成。与传
当今的个人电脑、工作站、服务器、路由器、交换机以及各种各样的消费类电子和游戏终端等系统,需要更高的芯片间互连通讯带宽来满足新应用领域所要求的更高的系统性能。同时,这
机器人足球是伴随着智能机器人技术和分布式人工智能而兴起的一种高科技对抗活动,是机器人和人工智能领域最具挑战性的研究课题。足球机器人系统是一个典型的多智能体系统和分