基于随机段模型的汉语语音识别算法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:zzx2324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学建模是语音识别系统中的核心技术,声学建模能力的增强对语音识别系统性能的提高具有重要意义。隐马尔柯夫模型(Hidden markov model,HMM)解码效率高,是现在使用最广,也是最成功的声学模型。但HMM以帧为语音处理单元的声学建模方式导致了一系列的无法克服问题,限制了它的建模能力。基于上述原因,研究者们提出了一种更一般的声学模型——段模型。由于段模型的计算复杂度过高,现在还未能有效地应用于实际系统,如大词汇量连续语音识别(large vocabulary continuous speech recognition,LVCSR)系统。   本文对段模型中的一类模型,随机段模型,进行了全面的研究和深入的探讨,建立了一个直接基于段模型的汉语LVCSR系统,并提出了符合段模型特点的LVCSR系统的建模和搜索方案。主要工作和创新点如下:   ·建立了一个基于随机段模型的汉语连续数字串识别系统和一个LVCSR系统。连续数字串系统实现的基本的建模和解码算法,为后面的LVCSR系统实现打下了良好的技术基础。   ·根据随机段模型的建模特点,提出其在汉语LVCSR识别中的建模方案,以及两种参数合并算法:基于音素的决策树参数合并算法和上下文时长模型参数合并平滑技术。两种方法很好地解决了段模型中声学模型训练时遇到的数据稀疏问题,优化了模型的结构和性能。在863语音测试集中,随机段模型系统较同等条件下HMM系统减少了17.2%的相对字错误率。   ·通过分析随机段模型解码的过程,探明其复杂度来源于两个方面:段概率计算复杂度高和搜索空间巨大。这两个因素对算法复杂度的影响是乘积的关系,而不是通常的加和性质。所以要在实用系统中使用段模型,需要同时优化这两方面的性能。本文给出的解决方案包括:   -针对段概率计算复杂度高的问题,提出了快速段模型解码框架和多步段计算算法。极大地缓解了段概率计算复杂度高的问题,在小词汇量语音识别应用中(如连续数字串)达到了实时要求,且其数字串的误识率较同类HMM系统下降了36.5%,取得了很好的结果;   -针对搜索空间大的问题,提出了着色法和由粗到细一遍搜索剪枝算法。着色法将语音序列着上不同颜色,使其对应声学空间内不同的区域,并通过与三音子模型的颜色进行匹配,达到剪枝的目的;由粗到细一遍搜索算法将解码分为两种类型,粗扩展和细扩展。算法根据切分的相似性,利用粗扩展获得切分的潜在区域,使用细扩展获得准确的解码结果,避免了不必要的声学模型扩展和估计。和以往算法不同的是,这两种扩展可以在一遍搜索的过程中完成。着色法和由粗到细一遍搜索算法在不降低解码精度的情况下,成功地将识别时间减少到基线系统的五分之一以内,极大地提高了解码的效率。   ·针对段模型解码特点,提出了全路径解码算法,取代现有的最优路径解码方案,可部分弥补由可切分性假设带来的缺点。为充分利用段模型解码特点,优化现行解码框架,做出了有益的探索。   基于段模型的LVCSR建模和搜索算法是本文工作的核心和亮点,在综合应用上述算法和技术之后,基于段模型的汉语LVCSR系统取得了比同等条件下HMM系统更高的识别精度,解码时间也控制在四倍实时以内,是段模型实用化的一个重要进展。
其他文献
学位
随着人类对化石燃料消费的不断增加及其储量有限之间矛盾的加剧正使能源危机日趋逼近,探测和开发海洋资源,具有可持续发展的深远战略意义。海洋可控源电磁探测法是目前进行海洋
目前,道路交通拥挤问题日益严重,其中由交通事件引起的偶发性交通拥挤对路段通行能力和交通安全的影响尤为突出。采用先进信息技术手段对交通流特性参数进行主动提取和分析,及时
扩散张量成像(Diffusion Tensor Imaging)是一种新型的MR成像方式,它的发展使得对大脑白质纤维的无创伤性研究成为可能。基于扩散张量图像的脑白质研究已是现阶段脑影像研究领
混凝剂投加是自来水生产过程中净水处理的重要环节,混凝剂投加自动化是实现自来水生产自动化的重要一环。准确地投加混凝剂可以有效地减轻过滤、消毒设备的负担,在保证满足出厂
随着社会经济的高速发展和人口的急剧增长,交通问题已经成为现代社会发展所必须解决的难题之一。智能交通系统(Intelligent Transportation System,简称ITS)的研究与建设将是
提高系统的可靠性与安全性已成为航空、航天、工业过程领域的迫切需求,故障诊断和容错控制技术是提高动态系统可靠性、安全性的一种重要途径。因此深入研究故障诊断与容错控制
过程安全对于现代化工过程十分重要,一个微小的故障可能导致巨大的经济损失,甚至人员伤亡。过程监测是保障过程安全、提高产品质量的一项有效手段。过程监测方法可以分为三类:
近年来,全球老龄化日趋严重,老年人又是脑卒中的高发人群。脑卒中造成的肢体运动功能障碍给患者带来极大不便和精神压力,同时也给家庭和社会带来了沉重的负担。如何帮助患者
汉语语音转换研究内容是通过语音处理手段改变汉语语音中的说话人个性信息,使得改变后的语音听起来像是由另外一个说话人发出的。本文分析了语音特征中蕴藏的说话人个性信息,针