自然口语语音识别中的声学建模研究

来源 :北京理工大学 | 被引量 : 9次 | 上传用户：wcbcni22

【摘要】

：

声学建模是语音识别领域中的关键问题之一，其精确性直接影响语音识别系统的性能。如何建立更精确的声学模型一直以来都是研究者关注的重点。本文以提高声学模型参数的准确性和

【作者】

：

齐耀辉

【出处】

：

北京理工大学

【发表日期】

：

2014年01期

【关键词】

：

连续语音识别声学模型说话人自适应区分性训练区分性线性变换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

声学建模是语音识别领域中的关键问题之一，其精确性直接影响语音识别系统的性能。如何建立更精确的声学模型一直以来都是研究者关注的重点。本文以提高声学模型参数的准确性和连续语音识别系统的性能为主要目的，对声学模型训练中状态聚类前三音子模型参数的估计和声学模型自适应进行了研究。首先，为了提高汉语连续语音识别中决策树状态聚类的精度，对状态聚类前三音子模型的优化进行了研究。决策树的构建与其所用的三音子模型参数的准确度存在密切的关系。训练语料中存在大量的稀疏三音子，因此在声学模型的训练过程中，状态聚类前三音子模型的训练存在数据稀疏问题。针对此问题，提出采用最大后验概率（MAP）准则估计状态聚类前三音子的模型参数。另外,MAP估计对模型的初始参数要求较高，而仅是音调不同的带调声韵母三音子集合之间的相似度比只有中心音子相同的带调声韵母三音子集合之间的相似度要高，因此采用无调声韵母三音子的模型参数初始化有调声韵母三音子的模型的方法，来提高有调声韵母三音子模型的初始参数的准确度。通过这些策略，提高了系统的识别性能。其次，对区分性最大后验概率自适应进行了研究。最小音素错误最大后验概率（MPE-MAP）算法在区分性训练中融入先验信息，实现了声学模型的区分性自适应。先验分布中的超参数的准确程度对MPE-MAP的性能有很大的影响，针对此情况，分别采用最大互信息最大后验概率（MMI-MAP）和基于最大互信息准则与最大似然准则相结合的H-criterion最大后验概率（H-MAP）自适应算法估计先验分布中的超参数，提出了MPE-MMI-MAP和MPE-H-MAP算法。两种算法通过提高超参数的准确度来使自适应后的模型得到优化，从而提高了自适应的性能。然后，对区分性线性变换自适应进行了研究。I-smoothing技术对区分性线性变换自适应方法非常重要，其通过在区分性目标函数中加入变换矩阵的对数先验分布来实现。本论文在实现区分性线性变换中的平滑时采用均值的先验分布，提出了基于均值先验的平滑方法。如果用最大似然（ML）估计的统计量定义均值先验分布中的超参数，可以得到和I-smoothing相同的结果。针对自适应情景中数据量非常少，采用ML估计的参数存在准确度不高的问题，提出采用MAP估计的统计量定义先验分布中的超参数，使区分性线性变换在少量自适应数据的情况下得到性能提升。另外，为了将区分性和最大后验概率相结合，本论文设计了一个新的目标函数来估计线性变换参数，提出了区分性最大后验概率线性回归自适应算法。实验结果表明，该算法在少量自适应数据的情况下可以提高自适应的性能，在大量自适应数据情况下仍能保持区分性线性变换的性能。最后，对线性投影（LP）自适应方法进行了研究。LP函数对多个初始模型进行线性变换，来得到自适应后的模型，可以看作是线性回归（LR）函数的扩展。本论文提出了基于变换矩阵的LP自适应方法，该方法采用说话人自适应（SA）模型作为初始模型，并用变换矩阵表示特定人信息。在选择初始模型时采用了最大似然的方法，以选择具有最重要信息的模型作为初始模型，减少所要估计的参数的数量，从而实现了一种快速自适应算法。

其他文献

拖拽下大变形柔性线缆非线性力学特性研究

柔性线缆作为航天器中控制能源与信息传递的载体，可靠性与安全性要求极高，线缆因柔性大变形产生多变的空间形态，同时布线与装配空间内约束工况复杂，导致其出现约束下的力学拉伤或

学位

柔性线缆大变形非线性力学特性拖拽仿真与试验

精英演绎“增值捆绑”之精髓

精英集团及其在国内唯一总代理讯怡和金山公司宣布,结成战略合作伙伴.今后,精英主板与金山毒霸进行全线捆绑,在此基础上,双方还可能深入合作,联合研发一款在线防毒功能的主板

期刊

精英集团捆绑形式增值服务主板软件

农村人民公社化运动的成因及影响研究

岁月如梭，时光荏苒，农村人民公社化运动成立距今已半个世纪有余了。时光已逝，而这场运动对我国社会发展进程的影响却永远不容忽视。众所周知，人民公社化运动是新中国成立以来中国

学位

人民公社化运动成因影响历史教训现实启示

N末端-前B型钠尿肽检测在诊断ACS中的临床应用

目的探讨急性冠脉综合征（ACS）患者,入院床旁检测（POCT）N末端B型钠尿肽原（NT-proBNP）的临床应用价值.方法应用加拿大Response Biomedical公司RAMP（r）（锐普）荧光干式定量分析仪,检测了9

期刊

急性冠脉综合征N末端B型钠尿肽原心脏功能左室射血分数acute coronary syndrome （ ACS） N-terminal pro-B-t

带蒂(肌)皮瓣早期修复巨大Ⅳ度损毁性电击伤36例的体会

河南电力医院烧伤整形科2004年1月至2009年12月收治各类电击伤612例,其中烧伤面积占受损部位解剖皮肤面积50%以上、损伤深达体腔或关节腔开放和(或)骨质损伤裸露的创面共36例

期刊

2例家族性染色体臂内倒位

<正> 人类染色体臂内倒位较少见,本院发现2例家族性染色体臂内倒位,现报道如下; 例1,35岁,因流产2次来诊,夫妇表型均正常,均无接触放射线或毒物史,外周血培养染色体核型分析,

期刊

染色体臂倒位环家族性

话说江湖（下篇）

在《话说江湖》的上、中篇里主要讲了江湖人来源于哪个社会阶层及其在江湖中的作用，这一节着重谈一下江湖文化中的诸多问题。

期刊

社会阶层江湖文化职业游民城市文化劳动力主流社会

DM2合并肾病患者血浆leptin和血清NPY、Hcy检测的临床意义

目的：探讨2型糖尿病（DM2）合并肾病患者血浆leptin和血清神经肽Y（NPY）、同型半胱氨酸（Hcy）水平的变化及临床意义。方法：应用放射免疫分析和酶联免疫法对36例DM2合并肾病（DM2-N）患者和30

期刊

2型糖尿病糖尿病肾病瘦素神经肽Y同型半胱氨酸type 2 diabetes（DM2）diabetes nephropathy（DN）leptinneu

美国华人社区的蜕变：从唐人街到蒙特利公园市

到洛杉矶一星期后，我最强烈的愿望是能吃上中式饭菜，而在UCLA校区附近我所居住的西屋（Westwood）一带，寻觅的结果却让我失望。于是近一个半小时高速公路车程远的唐人街，便成为我每周

期刊

美国华人社区唐人街蒙特利公园市文化生活洛杉矶市

诺顿网络安全特警2001—安全网络生活新保障

诺顿网络安全特警2001简体中文版由三个部分组成:防御黑客攻击的诺顿个人防火墙(Norton Personal Firewall)、防病毒软件诺顿防病毒2001(Norton AntiVirus)和诺顿隐私控制(No

期刊

网络安全诺顿特警2001计算机网络

自然口语语音识别中的声学建模研究

与本文相关的学术论文