基于语音关键词检测的人机交互研究

来源 :北京交通大学 | 被引量 : 15次 | 上传用户:majunchigg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机交互(Human-Computer Interaction, HCI)是研究人、计算机及它们之间相互影响的技术,包括从键盘、鼠标到语音识别、手势输入、感觉反馈等一系列交互方式。随着人机交互技术的不断发展,人们发现语音是人与计算机之间进行交互的最方便快捷方式。而语音关键词检测是语音识别的一种特殊形式,其主要作用是从连续的语音流中检测出在实际应用中所需要的少量特定词汇且具有资源消费少、识别率高和实用强的特点。因此关键词检测技术有着广泛的应用。目前语音关键词检测系统主要有三种:基于垃圾模型的关键词检测系统、基于音素/音节的关键词检测系统和基于连续语音识别的关键词检测系统。本论文中主要研究基于连续语音识别的关键词检测系统的相关技术。论文主要内容如下:(1)在连续语音识别理论部分,主要介绍语音信号的前端处理、声学模型、语言学模型和搜索解码。语音信号的前端处理部分主要包括端点检测、预加重、分帧和声学特征参数提取。本论文中提取的特征参数是梅尔倒谱系数(Mel-Frequence Cepstral Coefficients,MFCC),为了提高其鲁棒性和区分性,将提取的MFCC参数进行线性区分性(Linear Discriminant Analysis,LDA)变换。声学模型部分主要介绍了隐马尔科夫模型(Hidden Markov Models,HMM)、混合高斯模型(Gaussian Mixture Model,GMM)和子空间混合高斯模型(Subspace Gaussian Mixture Model,SGMM),并将SGMM-UBM (Subspace Gaussian Mixture Model-Universal Background Model)模型替换传统的]HMM-GMM模型建立声学模型。语言学模型主要介绍基于文法的语言模型和基于统计的语言模型,本论文中使用的是基于统计模型的三元语言模型。搜索解码部分主要介绍Viterbi算法及解码之后的输出结果。(2)在语音关键词检测部分,主要介绍Lattice网格结构、关键词搜索算法、基于Lattice的后验概率置信度计算及改进、关键词的输出规则和系统性能评价标准。在计算置信度时,引入了最小编辑距离(Minimum Edit Distance,MED)字符串相似度函数,其主要作用是用来对检测到的错误进行惩罚。关键词搜索算法主要介绍了动态规划算法和令牌传递算法。(3)搭建了一个基于语音关键词检测的人机交互系统,主要利用的工具是Kaldi,数据库是基于清华大学的THCHS-30语音库。通过仿真实验分析了不同算法对系统性能的影响。
其他文献
在桂林市东郊贡柑园内采集黑腐病叶新鲜标本分离纯化得黑腐病菌(柑桔链格孢菌Alternaria citri),经接种确认致病性后,对其生物学特性进行研究。结果表明,该病原菌的菌丝在PDA
背景与目的:甲氨蝶呤(methotrexate,MTX)在脑脊液中高于最小有效治疗浓度是治疗中枢淋巴瘤的必要条件,目前尚不明确大剂量MTX(high dose MTX,HD-MTX)静脉给药时间对MTX穿透血
万宝矿产有限公司根据海外投资项目的具体情况,安排银行美元融资时通常采用境外子公司直接从银行借款和公司总部以"统借统还"的形式从银行借款再转贷给境外子公司两种融资方
动画教育发展在当今世界已经是如火如荼,动画教育在快速发展中也出现了很多问题。根据高校教育和学生实习中发现的问题提出个人见解,以供参考。
【目的】许多文献曾报道阻断肠淋巴回流可以减轻肠源性肺损伤,然而很少有研究关注肠淋巴管结扎或引流对炎症消退的作用。本研究的目的是观察肠淋巴管引流在肠缺血再灌注所致
目的:观察衣霉素预处理诱导适度内质网应激对脓毒症乳鼠心肌细胞活性及线粒体功能的影响。方法:分离纯化乳鼠心肌细胞,进行体外培养。第一部分:观察不同浓度衣霉素对心肌细胞
当前校园文化建设的任务是高素养文化公民的培育以及中华文化传统的传承和创新。校园文化包含相互交融的四个子系统:校园文化价值系统、校园文化体制系统、校园文化传媒系统
目的通过建立重度创伤-失血性休克大鼠模型并利用SPV进行干预,观察休克组及SPV干预后大鼠血清MDA、SOD水平变化,结合肠粘膜损伤的变化规律评价SPV对大鼠肠道氧化还原作用的影
张岱年是我国当代杰出的哲学家和哲学史家,也是著名的伦理学家,被学界誉为"国学大师"。张岱年先生的为人与为学集中体现为"直道而行"的独立人格境界、"自强不息,厚德载物"的