非特定人连续数字语音识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:longshentailang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别研究的理论研究已经非常成熟,达到了很高的识别效果。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。然而,由于将语音识别应用于实际时,存在背景噪音、方言口音、口语等多方面的影响,一直没有在实际中取得广泛应用。尤其对于嵌入式应用场合,面临着非常复杂的环境,更要解决这些影响,使语音识别系统能应用于实际使用环境。由于论文在语音识别方面的研究刚刚起步,且大词汇量语音识别系统需要建立词典涉及到很多语言学知识,并且需要大型语音库,因此论文主要研究了非特定人数字串语音识别系统,内容包括自适应端点检测门限研究,Mel倒谱系数(MFCC)各维系数对识别结果的贡献,持续时间状态模型的参数选取,以及隐马尔可夫(HMM)状态数选取,训练集大小选取等问题。端点检测方面,在分析了经典双门限检测方法后,认为经典方法中,高门限取值为多帧语音数据能量平均值乘以固定系数a(a=1)在信噪比改变的情况下是不合理的,需要在实际应用之前,对系统进行自适应,通过逐步逼近的方法取得合适的系数a,再进行识别。实验证明,对系统进行自适应后,大大提高了系统的信噪比应用范围。MFCC系数是语音识别领域一个非常有效的声学特征,传统实验认为,由于前两维系数反应的是幅度值,对识别结果有负效果,应该丢弃MFCC的第一维和第二维。然而,经过实验后发现,虽然这两维系数对区分数字贡献不大,但是可以用来区分语音和背景噪音,可以应用在端点检测阶段,不应该简单丢弃。最后,论文还对持续时间状态模型的参数选取,HMM状态数和训练集大小进行了实验,结果表明持续时间的均值为220ms,方差为60ms,HMM状态数为5,训练集大小为30是比较合理的。
其他文献
软件开发技术迅速发展,如何方便、快速、灵活地创建稳定的软件一直是广大设计开发者所关注的问题。通过代码生成技术提高开发过程自动化,可以提升软件的开发效率和代码质量。本
无线传感器网络涉及的技术有传感器技术、嵌入式、无线通讯、分布式等,通过整合在传感器节点当中的微型感应芯片,相互协作的、实时的监测监控区域对象的信息,广泛用于国防、
细分方法是一种新的离散造型技术,细分曲面通过定义控制网格的细分规则来表示造型曲面。随着细分理论的不断发展,应用领域不断拓宽,细分曲面造型方法已逐渐形成了自己的独立
中国船舶科学研究中心(702研究所)现有的内部各部门的应用程序都是孤立的,许多关键的信息被封闭在相互独立的系统中,为了让不同的系统之间交互信息,使船舶设计人员在概念设计
随着我国航天运载技术取得了举世瞩目的成就,现在已接近世界先进水平。中国登月,将标志着我们的活动范围扩展到了宇宙空间。登月宇航员在月面的导航定位是国际深空探测领域技
无线传感器网络(Wireless Sensor Network,WSN)是当今社会上影响力最大和应用最为广泛的技术之一。近年来,随着科学技术的不断进步,无线传感器网络技术的应用也逐步扩大到人
解决数据分配问题的目的是使整个分布式数据库系统的总体代价最优,这也是在数据分配设计时需要考虑的首要问题。为了更好地解决数据分配问题,本文的作者主要综合了启发式添加副
国内外专家学者在过去几十年中对图像恢复进行了广泛而深入的研究,提出了一些有效的图像恢复算法,但这些传统的方法都存在各自的局限性。神经网络能够有效地解决图像恢复的非
空间信息技术已被广泛应用于社会建设的各个方面,特别是随着时间的推移,需要被系统保存的数据也越来越多。如何高效率地检索、挖掘这些海量数据信息,让其发挥更高的价值,一直
随着图像处理技术的快速发展,图像数据逐渐成为人们获取信息的重要来源,但这同时也带来了图像信息安全隐患问题。因而如何保护这些信息安全成为国际上研究的热门话题。图像加