基于词网语言模型的连续语音识别系统的研究与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:brinsh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算科学和信息技术的发展,语音识别日渐成为人与机器交互的主要工具。经过几十年的研究和发展,语音识别技术已日渐成熟并逐渐走向实用,正在渐渐地改变着人们的生活方式。语音识别在各个领域得到了广泛的应用,如语音电话拨号、语音指令、语音菜单、语音导航等。本文研究了语音识别中的关键技术,设计开发了一套基于词网语言模型的连续语音识别系统——MYASR。通过MYASR提供的功能模块可以容易地搭建一套基于词网语言模型的连续语音识别应用系统。本文以它作为实验平台,对语音识别中的关键问题进行深入系统的研究。本文深入研究了静音检测算法。为了提高声音活动检测的鲁棒性,提出了一种基于GMM模型的声音活动检测方法,此方法在频谱特征空间中建立背景噪音和语音的GMM模型,然后采用模型匹配的方法对被测信号进行区分。而且此方法自适应更新GMM模型的参数,使之可以适应环境的变化。实验结果显示该方法在噪音环境中比传统的声音活动检测方法具有更高的准确率。语音识别中通常采用连续概率密度的HMM模型,状态用GMM模型表示。由于GMM模型的似然率计算占用了语音识别的大部分时间,实时性能难以保障。因此,通常采用似然率的近似算法。实验表明,似然率近似算法可以使识别时间减少10%以上。本文通过对各种GMM似然率的近似算法进行深入的研究分析,在动态高斯选择算法(DGS)的基础上引入误差控制参数,使得算法可以把误差限制在一定的范围内,解决了传统似然率近似算法中误差不可知的问题,保障了语音识别的准确率。同时,针对不同高斯分量个数的GMM模型,本文还给出了误差控制参数的参考取值。通过在TIMIT语料库上的单音子连续语音识别实验,对各种似然率近似算法的性能进行分析比较,结果显示改进后的算法(TDGS)具有良好的性能。
其他文献
以太网以及TCP/IP协议已经是非常常用的网络标准。本论文研究的是在基于RTL8019AS以太网芯片的嵌入式网络终端中实现TCP/IP协议族。本文针对应用最广泛的以ARM系列单片机为核
学位
车辆导航系统(VNS,Vehicle Navigation System)是将卫星导航定位系统(如GPS)、地理信息系统(GIS,Geographic Information System)和计算机技术结合在一起的技术。车辆导航系
信息高速发展的今天,互联网越来越重要,已经完全融入了人们的学习、工作和生活中。伴随着中国经济总量跨10万亿,中国的综合国力得到全面提升,中文也在国际舞台上扮演着越来越
企业应用集成是通过硬件、软件、标准和业务过程的结合,实现两个或多个企业应用系统之间的无缝联结,使其像一个整体一样进行业务信息处理,从而使企业业务流程的各个环节达到协调
计算机辅助优化排样问题就是在给定的材料上最优的排放一系列形状各异的零件,找出零件的最优布局,使得原材料利用率最高。在实际生产中,优化排样问题广泛存在于机械制造业、
近年来,随着基于多协议标记交换的语音(VoMPLS)技术的不断发展,基于多协议标记交换的语音(VoMPLS)网络在全球范围内的部署实施工作得到了飞速地发展。因为语音在传送与接收时要求具
数字图像在其采集及传输过程中,难免会受到不同类型的噪声干扰。噪声的引入会降低图像的主观视觉质量,并且会对其需要进行后续处理及识别的图像造成严重影响。数字图像修复在
随着因特网技术、分组交换技术和音视频压缩技术的发展,两大网络即语音网络和数据网络出现了融合的趋势,便产生了VoIP网络电话。现在,VoIP已经占有相当比重的市场份额,成为当今电
随着21世纪的到来,计算机技术的发展更加迅猛,计算机的相关技术在各行各业的应用也更加广泛。在数字图像处理方面,人们越来越多地利用计算机来帮助人类获取与处理视觉图像信
多串口数据通讯是计算机应用方向的一个重要分支,主要研究的是数据的多串口采集,存储和处理。基于PCI总线技术的多串口数据通讯卡,一直是市场追求的热点。在总线技术中,PCI局