限定领域的语言模型

来源 :第七届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户：hyh900

【摘要】

：

在建立限定领域的语言模型时,很难获得足够的文本语料.为了防止语音识别系统只能识别训练集内的内容,使得语言模型具有更好的扩展性能,本文结合基于规则的方法和基于词类的语言模型的方法,将语法规则解析成有限状态网络,从网络中遍历词间联接,以扩展训练语料的不足,以此建立限定领域的语言模型,使得语言模型在非常有限的训练语料情况下,能够覆盖更多的语言现象.

【作者】

：

陈振标徐波

【机构】

：

中科院自动化研究所

【出处】

：

第七届全国人机语音通讯学术会议

【发表日期】

：

2003年9期

【关键词】

：

语言模型语音识别识别率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

普通话合成语音评估方法研究

本研究的目的是:针对目前汉语普通话TTS系统的现状,尝试提出一套行之有效的评价方法.本文通过对北京捷通华声语音技术有限公司大小不同的两个普通话TTS系统的评测,进一步探讨MOS主观评测的可操作方法.研究中,提出严格且操作性强的五分制定义,编制了一套测试材料.另外对听测人预先进行语音知识的培训,听测人参与了五分制标准语音的一致理解,而且增加了评分中的可操作性,避免了正式评测中分数的过度分散.还有,在

会议

语音合成评估方法普通话

符合VoiceXML2.0之语音浏览器

我们发现了一符合VoiceXML2.0规格的语音浏览器(VoiceBrowser),它和过去我们发展出的VoiceXML1.0语音浏览器不同处在於我们建立了一个符合SRGS(Speech Recogntion Grammar Spec)规格的文法剖析器,它加强了互导式(mixed-initiative)的对话功能,同时也针对语音插话(voice barge-in)规格,我们提一个基於音高周期驱动式

会议

语音浏览器语音插话语音辨识模型

汉语语音识别的技术研究与产品开发

为了摆脱语音环境因素对语音识别性能的影响,本文讨论分析了汉语语音识别技术的突破方向和两个可能的途径:一是使训练集包话识别时可能遇到的所有发音样本,求出各个模式之间的特征参数空间分界面;二是建立精确的语音产生模型,利用某人的少量指定的语音,实现某人的特定人语音识别.

会议

语音识别汉语语音语音信号

汉英双语混合声学建模方法初探

本文从直接合并汉英双语的phoen set入手,对三种不同的汉英双语混合声学建模方法进行了研究.这三种方法分别是:(1)直接合并二者的phone set进行声学建模,汉英两种语言之间没有共享的phoe;(2)基于国际音标协会(International Phonetic Association,简称IPA)的统一声学表示,把汉英双语的部分phone用国际音标进行共享,使得双语的Phone Set更

会议

多语言语音识别汉英双语混合声学建模识别率

语气词“ma0”的疑问用法和非疑问用法

本文以朗读语料为考察对象,区分句尾语气词"ma0"的疑问用法的非疑问用法,考察这两种用法的句尾语气词"ma0"在音高表现上的差异,并在此基础上考察带有句尾语气词"ma0"的疑问句和陈述句在句调上的差异.研究结果表明,不同用法的语气词" a0"具有不同的音高表现:当它用作疑问用法时,其末尾高音表现为高平、速升、缓降等特点;与此相反,当它用作非疑问用法时,其末尾音高表现为低平、缓升、速降等特点.研究结

会议

语气词疑问句陈述句句调差异韵律特征

基于子带能量的自适应端点检测

端点检测(Endpoint Detection)是语音识别系统的重要组成部分.它的作用是在输入信号中寻找语音的起止点,以提高语音识别的准确率.本文提出一种基于子带能量的自适应端检测算法.该算法通过统计噪声特征,把输入信号分为4个子带,并根据各子带的能量变化判断语音起止点.实验证明,由于该算法能根据噪声情况自动划分子带,并根据子带能量进行判断,对信噪比的敏感程度较低;该算法在分带时利用了输入噪声的能

会议

语音识别端点检测算法子带能量噪声特征

口语对话系统中一种稳健的语言理解算法

为了提高口语对话系统中语言理解的稳健性,本文提出了一种基于两级搜索的理解算法.在第一级采用概念捆绑生成概念图,剔除识别模块给出的词图上的一些干扰成份,在第二级采用改进的基于树扩展的稳健句法分析搜索出最佳理解结果.搜索基于统一的统计框架,并引入用户意图推断和句子特征短语两方面的信息对搜索空间进行约束,使理解的稳健性和实时率都得到了进一步的提高.实验表明该算法在0.22倍实时情况下,能得到13.6﹪的

会议

口语对话系统语言理解算法人机口语对话语音识别

基于eta平方的声韵母时长统计分析

本文引用了统计学中的eat-squared的概念来分析周围韵律环境对声韵母时长影响程度的大小,以此确定有主要影响作用的因素.文章在对20多万音节中声韵母时长进行统计的基础上对汉语时长的分布以及单元周围环境对时长的影响重要性进行统计,对较为重要的属性进行了详细分析,得到了建立准确时长模型所需的可靠信息.

会议

语音合成韵律特征声韵母时长统计分析

基于逆滤波和LF声源建模的语音合成器研究

本文实现了一种基于IAIF逆滤波和LF声源建模的高音质LPC语音合成器,提出了新的高频补偿方法,解决了以往此类合成器高频失真严重的问题.为声音品质调整、感情色彩语音合成等方向研究奠定了基础.

会议

语音合成器逆滤波声源建模高频补偿

言语合成语料库的制作

语音资料库的制作,无论对于言语识别还是言语合成的研究来说,都是极为重要的部分.在言语合成方面,基于大语料库的合成系统取得了很好的效果,成为目前合成技术的主流.本文概述了合成用语料库的制作需求,详细讨论了合成用语料库制作的需要注意到的方方面面,并说明了一个合成用语料库的制作过程.

会议

语音语料库语音识别语音合成

限定领域的语言模型

与本文相关的学术论文