语音识别时间依存性模型

来源 :清华大学 | 被引量 : 0次 | 上传用户:menghuilong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经典HMM理论用于语音识别有一些缺点,尤其是“状态输出独立假设”忽略了语音特征间的时间依存性,阻碍了识别性能的进一步提高。时间依存性表现为由于发声器官惯性所导致的相邻语音帧之间的相互影响。论文在建立新语音识别模型以便有效利用语音的时间依存性方面做了一些有益的研究,提出了一系列新的概念,方法和模型,取得了令人满意的实验效果。 首先,认识到传统的“基于最大似然学习的识别器设计”方法在实际应用中的一些不足,论文提出了“基于最小后验熵学习的识别器设计”方法。基于此,论文提出了“时间依存性声学模型的一般形式”及其训练和识别算法,阐述了由鉴别函数表达的声学模型的概念,为具体的时间依存性模型的研究提供了一个灵活的框架。 接着,论文讨论了“线性预测HMM”用于语音识别存在的问题,给出了在HMM中引入线性预测考虑时间依存性的新的分析。由此,在“基于最小后验熵学习的识别器设计”框架下,提出了“多预测组合”(CombinationsofmultipleLPs,CoLP)方法,得到一种“多预测组合时间依存性模型”-CoLP模型,提供了一种新的使用多个预测子考虑时间依存性的有效途径。论文提出了“拼音格方法”,以及避开Hessian阵的实际计算使用“阻尼牛顿法”,实现了CoLP模型的“最小后验熵参数训练”。 综上所述,从概念提出,具体模型形式的建立(“多预测组合时间依存性模型”),到模型参数的训练算法,论文完成了一个有效利用了时间依存性的“基于最小后验熵学习的识别器设计”。 汉语非特定人连续语音识别的实验表明:一个“完整的最小后验熵训练CoLP模型”在男声、女声多个测试集下,取得了与基线(状态输出独立)HMM相比38~50%的相对错误率下降,且表现出很好的对不同说话人的一致性。与首选的错误率降低相比,多候选错误率则有更大幅度的降低:与基线HMM相比,取得了53~66%的5选相对错误率下降。
其他文献
该论文对于手持式局域网分析仪的实现进行深入、细致的研究.首先,论文较为详细地介绍了该分析仪的总体设计方案,然后重点阐述了在基于以太的IP网络环境下的测试方法.该论文通
RTU,是SCADA系统中实现远程通信的关键设备,承担着主站和测站间信息“上传下达”的重要工作。传统的RTU设备,支持的通信方式很有限,难于满足SCADA系统在电力、水利、石油和环境等
随着VoIP(Voice over IP)技术的快速发展,各种基于VoIP的应用产品也应运而生,本文中讨论的VoIP语音网关为语音通信中一个十分重要的设备。语音网关中的语音压缩算法的选择和
近几年来,随着各国个人移动通信业务的蓬勃发展,特别是无线通信技术的不断成熟,人们开始逐步地重视通信中的安全保密问题。由于在移动通信环境下,“一位一密”的流密码相对于
该文以数据融合理论为基础,进行雷达组网中航迹的综合.主要包括多传感器的数据配准、数据关联、目标状态估计几个方面.论文采用主站雷达测量坐标系下的误差线性化方法进行系
该课题研究的主要目的是以宽带内容服务为依托,分析目前数字版权管理应用的市场现状和技术现状,继而设计出基于软、硬件技术和各种安全手段相结合的一整套的解决方案.在该论
本文通过对荣华二采区10
期刊
数字水印是指在图像、视频、音频、文本等数字信号中隐藏数据的技术。它具有版权保护、内容验证等功能。由于数字水印可能面临各种各样的攻击,如何保证算法的鲁棒性和安全性成
该文主要对基于语义的图像/视频检索的基本框架、关键技术、相关反馈技术以及视频数据库的生成等作了全面的研究,并对其中的相关反馈技术进行了改进.在检索系统中,首先从用户
该文对语音信号和噪声信号的特性、自适应原理及自适应噪声对消原理、自适应LMS算法及其几种改进形式的滤波效果等进行了研究,在此基础上,提出了变步长截断数据自适应LMS算法