语音识别时间依存性模型

来源 :清华大学 | 被引量 : 0次 | 上传用户：menghuilong

【摘要】

：

经典HMM理论用于语音识别有一些缺点，尤其是“状态输出独立假设”忽略了语音特征间的时间依存性，阻碍了识别性能的进一步提高。时间依存性表现为由于发声器官惯性所导致的相邻

【作者】

：

欧智坚

【机构】

：

清华大学

【出处】

：

清华大学

【发表日期】

：

2003年期

【关键词】

：

时间依存性识别器设计线性预测HMM 多预测组合语音识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经典HMM理论用于语音识别有一些缺点，尤其是“状态输出独立假设”忽略了语音特征间的时间依存性，阻碍了识别性能的进一步提高。时间依存性表现为由于发声器官惯性所导致的相邻语音帧之间的相互影响。论文在建立新语音识别模型以便有效利用语音的时间依存性方面做了一些有益的研究，提出了一系列新的概念，方法和模型，取得了令人满意的实验效果。首先，认识到传统的“基于最大似然学习的识别器设计”方法在实际应用中的一些不足，论文提出了“基于最小后验熵学习的识别器设计”方法。基于此，论文提出了“时间依存性声学模型的一般形式”及其训练和识别算法，阐述了由鉴别函数表达的声学模型的概念，为具体的时间依存性模型的研究提供了一个灵活的框架。接着，论文讨论了“线性预测HMM”用于语音识别存在的问题，给出了在HMM中引入线性预测考虑时间依存性的新的分析。由此，在“基于最小后验熵学习的识别器设计”框架下，提出了“多预测组合”(CombinationsofmultipleLPs，CoLP)方法，得到一种“多预测组合时间依存性模型”-CoLP模型，提供了一种新的使用多个预测子考虑时间依存性的有效途径。论文提出了“拼音格方法”，以及避开Hessian阵的实际计算使用“阻尼牛顿法”，实现了CoLP模型的“最小后验熵参数训练”。综上所述，从概念提出，具体模型形式的建立(“多预测组合时间依存性模型”)，到模型参数的训练算法，论文完成了一个有效利用了时间依存性的“基于最小后验熵学习的识别器设计”。汉语非特定人连续语音识别的实验表明：一个“完整的最小后验熵训练CoLP模型”在男声、女声多个测试集下，取得了与基线(状态输出独立)HMM相比38～50％的相对错误率下降，且表现出很好的对不同说话人的一致性。与首选的错误率降低相比，多候选错误率则有更大幅度的降低：与基线HMM相比，取得了53～66％的5选相对错误率下降。

其他文献

手持式局域网分析仪IP/Ethernet网络测试方法的研究与实现

该论文对于手持式局域网分析仪的实现进行深入、细致的研究.首先,论文较为详细地介绍了该分析仪的总体设计方案,然后重点阐述了在基于以太的IP网络环境下的测试方法.该论文通

学位

局域网络分析仪IP/Ethernet网络测试VxWorks嵌入式操作系统

支持多种通信方式的新型RTU的研制

RTU，是SCADA系统中实现远程通信的关键设备，承担着主站和测站间信息“上传下达”的重要工作。传统的RTU设备，支持的通信方式很有限，难于满足SCADA系统在电力、水利、石油和环境等

学位

RTUSCADAGSMInternet总线DSPTCP／IP

语音压缩编解码在语音网关(VOIP)中的应用

随着VoIP(Voice over IP)技术的快速发展,各种基于VoIP的应用产品也应运而生,本文中讨论的VoIP语音网关为语音通信中一个十分重要的设备。语音网关中的语音压缩算法的选择和

学位

语音网关技术语音编码压缩算法DSP芯片

流密码中布尔函数构造及代数攻击研究

近几年来,随着各国个人移动通信业务的蓬勃发展,特别是无线通信技术的不断成熟,人们开始逐步地重视通信中的安全保密问题。由于在移动通信环境下,“一位一密”的流密码相对于

学位

流密码布尔函数代数攻击代数免疫阶

雷达航迹的综合研究

该文以数据融合理论为基础,进行雷达组网中航迹的综合.主要包括多传感器的数据配准、数据关联、目标状态估计几个方面.论文采用主站雷达测量坐标系下的误差线性化方法进行系

学位

数据融合航迹综合系统误差数据关联整体相关神经网络Tsp整体相关动态分区模糊相似

宽带内容服务系统中数字版权管理的研究

该课题研究的主要目的是以宽带内容服务为依托,分析目前数字版权管理应用的市场现状和技术现状,继而设计出基于软、硬件技术和各种安全手段相结合的一整套的解决方案.在该论

学位

数字版权管理内容保护版权保护电子版权内容服务

如何做好水利工程施工的安全管理

本文通过对荣华二采区10

期刊

基于边际信息的图像数字水印研究

数字水印是指在图像、视频、音频、文本等数字信号中隐藏数据的技术。它具有版权保护、内容验证等功能。由于数字水印可能面临各种各样的攻击，如何保证算法的鲁棒性和安全性成

学位

数字水印边际信息鲁棒性版权保护内容验证

基于语义的多媒体信息检索的研究

该文主要对基于语义的图像/视频检索的基本框架、关键技术、相关反馈技术以及视频数据库的生成等作了全面的研究,并对其中的相关反馈技术进行了改进.在检索系统中,首先从用户

学位

信息检索图像检索视频检索基于语义的信息检索相关反馈MPEG-7

基于自适应噪声抵消的语音增强算法

该文对语音信号和噪声信号的特性、自适应原理及自适应噪声对消原理、自适应LMS算法及其几种改进形式的滤波效果等进行了研究,在此基础上,提出了变步长截断数据自适应LMS算法

学位

语音增强自适应噪声抵消变步长截断误差LMS算法信噪比收敛速度

语音识别时间依存性模型

与本文相关的学术论文