论文部分内容阅读
人机交互(Human-Computer Interaction, HCI)是研究人、计算机及它们之间相互影响的技术,包括从键盘、鼠标到语音识别、手势输入、感觉反馈等一系列交互方式。随着人机交互技术的不断发展,人们发现语音是人与计算机之间进行交互的最方便快捷方式。而语音关键词检测是语音识别的一种特殊形式,其主要作用是从连续的语音流中检测出在实际应用中所需要的少量特定词汇且具有资源消费少、识别率高和实用强的特点。因此关键词检测技术有着广泛的应用。目前语音关键词检测系统主要有三种:基于垃圾模型的关键词检测系统、基于音素/音节的关键词检测系统和基于连续语音识别的关键词检测系统。本论文中主要研究基于连续语音识别的关键词检测系统的相关技术。论文主要内容如下:(1)在连续语音识别理论部分,主要介绍语音信号的前端处理、声学模型、语言学模型和搜索解码。语音信号的前端处理部分主要包括端点检测、预加重、分帧和声学特征参数提取。本论文中提取的特征参数是梅尔倒谱系数(Mel-Frequence Cepstral Coefficients,MFCC),为了提高其鲁棒性和区分性,将提取的MFCC参数进行线性区分性(Linear Discriminant Analysis,LDA)变换。声学模型部分主要介绍了隐马尔科夫模型(Hidden Markov Models,HMM)、混合高斯模型(Gaussian Mixture Model,GMM)和子空间混合高斯模型(Subspace Gaussian Mixture Model,SGMM),并将SGMM-UBM (Subspace Gaussian Mixture Model-Universal Background Model)模型替换传统的]HMM-GMM模型建立声学模型。语言学模型主要介绍基于文法的语言模型和基于统计的语言模型,本论文中使用的是基于统计模型的三元语言模型。搜索解码部分主要介绍Viterbi算法及解码之后的输出结果。(2)在语音关键词检测部分,主要介绍Lattice网格结构、关键词搜索算法、基于Lattice的后验概率置信度计算及改进、关键词的输出规则和系统性能评价标准。在计算置信度时,引入了最小编辑距离(Minimum Edit Distance,MED)字符串相似度函数,其主要作用是用来对检测到的错误进行惩罚。关键词搜索算法主要介绍了动态规划算法和令牌传递算法。(3)搭建了一个基于语音关键词检测的人机交互系统,主要利用的工具是Kaldi,数据库是基于清华大学的THCHS-30语音库。通过仿真实验分析了不同算法对系统性能的影响。