自动语音识别中声学模型鉴别性训练的研究与应用

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:lingyumhg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学模型的鉴别性训练是近年来主流语音识别系统中所广泛采用的模型训练优化手段,相较于传统的声学模型最大似然估计训练,鉴别性训练对模型假设的依赖程度降低,通过优化与系统识别率相关的目标函数,在有限的训练集上力图从正反两方面的训练样本中学习到更多的类区分度信息,从而寻求在现实条件下,对声学模型参数的更优估计。本文围绕着当前几种主流鉴别性训练准则的理论原理、优化方法及其在各种语音识别任务中的实现和应用问题,进行了以下研究工作并有所创新:   1.本文分析了传统MPE训练中音素正确率计算存在的问题,抓住在状态聚类的声学模型中,音素背后的物理状态才是音素的物理载体这一本质,提出了一种基于音素物理状态序列比对的MPE-SC音素正确率计算方法,改进了传统MPE训练中的音素正确率计算,并在不同的测试集上取得一致有效的改进效果。   2.本文在MPE训练过程中的声学似然值缩放问题上,提出了一种引入后验概率平滑因子的MPE-PPS方法。MPE-PPS在保持声学模型似然值和语言模型概率动态范围的约束关系的基础上,为调整音素后验概率的分布提供了更灵活有效的方式。后验概率平滑因子的本质在于更好地控制训练过程中引入的混淆度,从而为模型在测试集上提供更好的推广性能。MPE-SC与MPE-PPS在性能上具有一定的叠加性,在本文的实验中,二者的结合使用相较于传统的MPE训练,在中文CTS测试集上取得了相对2.48%~3.31%的错误率下降。   3.本文提出了一种在参考声学空间中对超高维高斯后验概率向量进行快速计算的方法,通过模型两步聚类、选取高斯快速计算码字、设置最优候选数目和高斯似然值剪枝等方法,实现对超高维向量稀疏化的精确控制,大大降低了与超高维向量相关的乘法计算,使fMPE训练算法在各种语音识别系统中的应用成为可能。   4.本文分析了参考声学空间的精度对fMPE训练的影响。提出了使用鉴别性声学模型作为参考声学空间以改善fMPE模型性能的fMPE-DCMT训练方法。在小规模纯声学模型的识别任务中,比传统的fMPE模型性能提高了相对7.5%。   5.本文将MPE/fMPE训练推广到了各种实际应用的语法受限语音识别系统。针对不同系统各自的特点,在训练Lattice的生成问题上应用了不同的策略,最大限度地挖掘鉴别性训练在各种语音识别系统中的潜在优化能力。本文还将MPE/fMPE训练从单语种LVCSR系统推广到了中英文双语LVCSR系统,根据语种内和语种间的错误率改善情况分析了鉴别性训练对于改善双语、乃至多语识别系统性能的意义。
其他文献
本文通过对荣华二采区10
期刊
佛波酯(12-O-tetradecanoylphorbol-1,3-acetate,TPA)作为一种有效的细胞外调节者,不仅调控细胞生长,还影响细胞凋亡。例如,一方面,作为肿瘤刺激因子,TPA能够和EB病毒共同诱
学位
无线频谱是一种珍贵的自然资源,当前频谱资源日渐紧张稀缺的一个主要原因是固定频带分配造成的。审视各地域内的频谱占用率,我们发现一些频带在绝大部分时间内是未被占据的,
利用电法勘探技术对地下资源进行探测是一种新型、高效的物探技术方法。目前,瞬变电磁法(Transient Electromagnetic Method简称TEM)以其勘探深度大、分辨率高、穿透能力强等
能量扩展变换技术(Energy Spreading Transform,EST)系统能够将信号的能量同时扩展到时域和频域,通过能量扩展,在频域可以获得频率分集,在时域可以明显增加反馈信号的可靠性
本文通过对荣华二采区10
期刊
随着人类对地球空间资源的不断开发和利用,空间中的目标数量呈快速上升的趋势。空间目标给在轨运行的航天器、卫星以及国土防空带来了较大的威胁,空间目标探测技术正受到世界
H.264怍为最新的视频压缩编解码标准,采用了许多先进的技术来进一步提高图像的压缩效率,其应用前景非常广阔。现在,世界上很多科研机构和公司都投入了对H.264的研究和开发,由于H.
本文通过对荣华二采区10
期刊
地图匹配是一种基于软件技术的定位修正方法,其基本思想是将车辆定位轨迹与数字地图中的道路网络信息联系起来,由此确定车辆的位置。地图匹配算法的优劣直接影响车辆定位的精确