语音识别置信度特征提取算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:dfsdasdas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模连续语音识别的研究已经进行了二十多年,虽已取得了显著进展,但距离广泛应用还有相当的距离。在克服识别算法本身缺陷、追求识别性能提升的过程中,研究者们逐渐引入了置信度的概念,用它来衡量语音识别系统所作决策的可信程度。近年来,语音识别置信度在语音错误检测与错误纠正,无监督和半监督训练、多遍搜索技术和语料库中错误语料甄选等应用中都发挥了非常重要的作用。传统的语音识别置信度标注基于不同置信特征或者特征组合进行分类判决,目前常使用的置信特征主要来源于解码信息。但是,方面现有置信度特征对解码信息的挖掘仍局限于孤立和静态,而忽略了词与周围环境之间的关系;另一方面,目前声学特征仍占主要地位,而人类听觉实验表明,人在进行语音理解时,大约有30%的信息来自于语法、语义等知识的指导。因此,在置信度特征提取中,如何挖掘出词与环境之间的关系,同时提炼出词的语法和语义特征,从而提高识别后处理性能,是一个非常值得研究的问题。基于上述目的,本文在搭建传统语音识别置信度标记系统的基础上,提出了两种新的置信度特征,一是环境特征,分为上下文环境、动态环境、句全局环境三类,通过对解码信息的再加工,从空间与时间角度较全面地描述了词与环境之间的关系;二是基于主题相似性的语义层置信特征提取算法TSS (Topic Similarity based Semantic confidence feature extraction algorithm),通过主题模型LDA(Latent Dirichlet Allocation)计算得到识别结果中词的主题分布及其上下文的主题分布,并将二者之间的主题相似性作为词的语义置信特征。实验表明,本文提出的两种特征深入挖掘了解码层的有效信息,又增加了置信特征的信息来源,与解码层置信特征进行组合后能有效地提高置信度标注的精度。
其他文献
研究城市地表覆盖与地表温度(LST)的关系对改善城市生态环境具有重要科学意义.在Landsat TM数据支持下,利用线性光谱混合分析模型提取不透水地表信息,结合LST和地表热通量,分
本刊与人民日报社新闻智力开发中心函授部商定,从本期起开辟《函授园地》一栏,选登该部函授学员的作业和指导教师的评改。括号内是删去的原文,黑体字为指导老师的评改。 The
水稻的烂秧问题,在科学上属于喜温植物的寒害,但从其发生的种种原因来看,也不完全属于这一领域,即使列入寒害一类,喜温植物遭受寒害而致死的原因,迄今并未完全解决。归纳起
无线传感器网络(WSN)综合了传感器、嵌入式、通信等技术,在环境检测、国防军事和智能家居等领域有广泛的应用前景,被认为是21世纪最重要的新兴技术之一。传感器节点定位技术
作业成绩:中本报讯我国目前最长的水上索桥——山西省南部的南沟黄河索桥已于3月15日由武汉军区某部舟桥部队动工架设。南沟,位于山西省平陆县曹川乡和下坪乡境内,是通往河
运动控制系统的核心部分是运动控制器,随着微电子技术与半导体工艺的发展,DSP芯片的性能不断提高,成本不断下降,目前高性能运动控制器大都采用DSP芯片为核心。基于DSP的运动
为使我区东部低、中产麦区迅速达到高产水平,提高经济效益,我们于1984~1985年应用二次回归正交旋转组合设计法,微机处理试验数据,筛选出亩产350公斤以上、亩利润90元以上的优
在钻井过程中,当前大多采用恒钻压自动送钻PID控制系统。传统的PID控制系统具有结构简单、可靠、稳定等特点,但它常不能有效克服负载、钻井参数的大范围变化及非线性的影响,
一、前言近年来随着科学技术的进一步发展,稀土已广泛用于各种农作物,应用于甘蔗已初步取得可喜的成绩,增产和增糖都有一定的作用。目前生产上主要是使用低浓度的稀土溶液在
陶山果蔗是浙江瑞安市有名的传统特产,栽培历史悠久。近年来,陶山果蔗的栽培面积迅速扩大。据报道稀土元素对农作物具有增产和改善品质的作用,特进行陶山果蔗喷施“农乐”稀