基于Sphinx的汉语连续语音识别

被引量 : 27次 | 上传用户:bestdzik
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语连续语音识别拥有可观的应用前景和深远的研究价值。汉语的发音短、混淆性高、方言多等特性,使得汉语连续语音识别比英语连续语音识别难度更大,成为目前语音识别领域研究的热点和难点问题。本文在卡内基梅隆大学开发的Sphinx语音识别系统的基础上,结合汉语发音特点对中等词汇量、非特定人的汉语连续语音识别系统进行了基础性的研究。汉语连续语音识别实质上是在汉语的声学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列,需要涉及到特征提取,声学模型、语言模型、搜索算法等方面的知识和技术。Sphinx系统代表着连续语音识别的较高水平,本文正是借鉴了其先进的技术,结合汉语发音的特点构建了汉语连续语音识别系统。语音的声学模型和识别理论是构建语音识别系统的基础。完整的连续语音识别系统主要包括四个部分:特征提取,声学模型,语言模型和搜索算法,本文就是根据这四个部分展开的。本文首先介绍了汉语连续语音识别的发展历史和相关理论知识,接着按照语音识别系统的处理步骤详细地分析了各个过程,重点对MFCC特征提取做了详细的分析。在深入研究Sphinx系统中声学模型训练工具Sphinxtrain和语言模型训练工具Cmucmltk代码的基础上,通过修改相关参数,训练了适合汉语识别的声学模型和语言模型。模型训练完成之后研究解码端Viterbi搜索算法,结合识别引擎Pocketsphinx实现了汉语连续语音识别系统的构建。文章最后通过实验和数据分析,验证了系统的有效性。本文主要进行了两个系统的设计:首先以CASIA汉语数字串语音库训练声学模型和语言模型,构建了汉语连续数字识别系统,该系统句子识别率达到了90%,词识别率高达97.2%;其次以CASIA98-99语音测试库训练声学模型和语言模型,建立了一个中等词汇量的汉语连续语音识别系统,该系统性能较之前者识别性能欠佳,句识别率为70%,词识别率为96.7%。全部数据显示了系统的有效性。
其他文献
<正>意境理论在中国古典美学体系中占有重要地位,它的演进历程众说不一。中国古典诗歌意境理论的发展经历了以下几个阶段:从先秦到魏晋南北朝是意境理论的孕育时期;唐代是意
脑瘫(cerebral palsy, CP),又名小儿脑瘫、脑性瘫痪,是继脊髓灰质炎被控制后,近代最常见的儿童致残性疾病。CP临床主要症状包括运动障碍、姿势障碍、智力障碍、听觉障碍、语
板书设计是教师教学的微型教案,它可以折射出教师钻研教材、分析教材的过程,板书设计应用得好能帮助学生理解教材,提高学习效率。本文主要对板书设计应遵循的原则、一般形式
<正>一、俄罗斯军费预算为了达到俄联邦政府所制定的目标——到2020年,俄武装力量的现代化武器装备占70%,俄政府连续数年加大军费预算的拨款力度,其中的国家国防预算和国防订
美展出火星探路者飞行部件美国喷气推进实验室最近在开始总装测试之前展出了火星探路者航天器的飞行部件。该探测器定于今年12月发射,预计将于明年年中到达火星。火星探路者由一
目的:探讨美皮护治疗瘢痕的疗效及其影响因素。方法:选择符合纳入标准的病例,自2006年3月到2009年6月在我科确诊为各类皮肤瘢痕或行整形手术术后要求使用美皮护且完全配合使用
<正>根据2012年12月5日俄总统普京签署批准的未来3年俄联邦预算法案,2013~2015年俄联邦航天预算分别为1832亿卢布(约59.5亿美元)、1847亿卢布(约60亿美元)和2106.5亿卢布(约68
文化产业正在成为苏州市经济的一个新增长点,与快速发展的文化产业趋势相矛盾的是文化产业人才尤其是文化创意人才供不应求,主要体现在缺少文化创意领军型人才、文化创意人才
随着新课改的逐步深入,各地高中纷纷进行了改革。但应注意的是,高中有机化学的教学过程仍存在着诸多问题,因此,本文重点就高中有机化学教学存在的问题及相应的教学策略进行了
本论文以人白血病HL-60和K562细胞株,人乳腺癌MCF-7和MDA-MB231细胞株为体外模型,分别采用台盼蓝排斥法和MTT法对10种白藜芦醇衍生物的细胞生长抑制作用进行了考察,并应用吖