论文部分内容阅读
在人与人之间的自然对话中,语音对话是被使用最频繁的一种交流方式,因为它是最直接、最方便的一种表达方式。那么在人工智能领域中,语音识别也就成为了人机交互技术里最重要的部分之一,并随着现代科技的发展,各类语音识别软件逐步融入人们的生活,例如智能手机的语音拨号、发短信、查询等,以及汽车上的一些语音控制设备。在如今的互联网时代里,获得大量的语音数据已不成问题,那么如何高效的利用这些未经标注的而且大量的语音数据,就成为了当前语音识别领域的一个研究热点。与此同时,深度学习模型对数据有着强大的建模能力,并能直接对未标注的原始数据进行预处理,这就使其与语音识别的联系越来越紧密。在此背景下,本文以语音识别理论为基础,针对如何将深度学习理论应用于语音识别中这一问题展开研究,最后在此研究上设计了一个孤立词语音识别系统,主要有以下内容。(1)根据语音识别基本原理,在Matlab环境下,编程搭建一个非特定人的孤立词语音识别系统框架,这个系统框架中主要包括语音信号预处理、特征提取、基于HMM声学模型的训练和解码搜索这四个部分。实验中用训练库中语音数据,以提取传统的声学特征(MFCC)为基本特征,训练出基于HMM声学模型的模板库,再结合测试库中的语音数据进行解码搜索,检测此识别系统的识别率,并以此得到了一个合适的声学模型参数,以便下来的试验。(2)以深度学习为基础理论,提出了一种升维式的堆栈式深度自动编码器模型,利用此模型提取新的深层语音特征。并分别从网络的隐含层层数、各层节点数、各层节点的激活函数、有监督和无监督训练方式等多个方面构建深度自动编码器模型及其在语音特征提取中的具体应用。实验证明,新的深层特征比原始MFCC特征,使识别系统在词识别正确率和时间方面都有所提高,这就证明了深度学习模型在特征提取上对提高语音识别正确率的有效性。(3)本文基于以上研究成果,在Labview平台上对上述所研究的基于深度学习的孤立词语音识别系统进行了系统设计,其功能包括录音、播放、训练和识别。其中为了语音系统的识别正确率能达到95%以上,对模板库进行改进,设计为特定人的模板库,即在进行识别时,选择与个人对应的模板库对其语音进行解码搜索以得到识别结果。