汉语语音识别的发音词典问题研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:tonyyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自动语音识别从孤立词发展到大词汇量连续语音,发音词典已成为这类系统的重要组成部分之一,它一方面对语言模型有着影响,又在词层次上约束声学模型。当前,如何确定发音词典,即其规模及词条,仍是一个开放问题。现有方法仅从文本层面采用与语音识别性能无直接联系的语言模型度量来确定词典,采用贪心策略得到局部最优词典,并未利用声学混淆信息。相对于英语等其它语种,汉语词有三个重要特点:首先,汉语对“词”无明确地定义,“词”的边界模糊;其次,汉语词存在多发音;最后,汉语词的同音现象严重。它们对于汉语语音识别词典确定有着重要的指导意义。本文针对汉语词的这三个特点,重点研究汉语语音识别中如何结合语言信息和声学信息来确定发音词典,以及如何引入词权重提高词典内各词的区分度。本文工作主要包括以下三个部分:  第一,针对音字转换中的发音词典,提出了错误驱动的增量式词典确定方法。该方法充分利用音字转换的错误信息,以音字转换性能作为目标函数,从候选词集中选择同音混淆较小的词,通过对二元文法的复合来降低词间的发音混淆,同时引入词的剔除和复合词的拆分机制控制词典规模,结合模拟退火来获得全局最优的词典。音字转换实验表明,与同等规模词典以及性能最好的基线相比,该方法均获得较好的性能。  第二,针对语音识别中的发音词典,提出了基于音子网声学信息和错误驱动的增量式词典确定方法。该方法基于音子网中的声学混淆信息,结合语言信息,利用语音识别的错误信息从候选词集合中挑选混淆较小的词,并将错误的二元文法复合成音节数较多的词。同时引入剔除和拆分机制,通过模拟退火来避免陷入局部最优。语音识别实验表明,在同等规模下,该方法构建的词典可以得到绝对1.01%字错误率的下降。在保证性能不变的前提下,可将词典规模从30000词降低到20000词。  第三,针对发音词典的词间发音混淆问题,提出了利用区分性训练学习词权重的方法。该方法用最大互信息准则、大边界估计准则和软边界估计准则,及近似-优化来融合声学信息、语言信息和词汇发音信息,区分性地学习词权重。语音识别实验表明,最大互信息准则、大边界估计准则和软边界估计准则的词权重区分性学习均得到了显著提高,其中软边界估计准则的性能最好。  以上三方面的工作,有效地提高了汉语语音识别的性能,并实验验证了发音词典对汉语语音识别的影响和重要性。
其他文献
本文首先分析了传统分布式计算技术CORBA、DCOM和RMI的特点,揭示了其固有的不足及缺陷:都不太适合于在Internet这样松散耦合、异构的、有防火墙的网络环境下进行电子商务应用系
该文所做的工作是国家863科研项目—构件化嵌入式操作系统及其开发环境研制的一部分.目标是设计并实现一个构件化、嵌入式的TCP/IP协议栈JBEIP.该文的重点是如何使协议栈满足
该文的工作主要集中在对包含有特殊信息内容的文本,进行的有害度评测上.参考以往文本过滤系统所采用的技术,我们发现在这个特定领域,特殊应用上,它们有明显的不足之处.该文根
随着多媒体技术的发展,对各种媒体之间交互作用的研究越来越受到人们的关注。可视语音研究是这个领域的一个重要研究方向,在智能化人机交互界面等研究中占有重要地位。本文结合
目前,集成电路工业作为信息产业的基础,对国民经济和和社会发展产生着日益重要的影响。随着超大规模集成(VLSI)技术和深亚微米工艺的发展,集成电路中广泛存在宽度仅为深亚微米量
在大数据时代,海量数据使得压缩技术变得越来越重要。同样地,对于搜索引擎来讲,高效的压缩算法将会提升倒排索引的查询性能和空间利用率。近十年来,计算机处理器得到了快速发展,提
该文研究内容包括硬件防火墙技术、网络处理器技术以及如何将二者有效结合起来这三个方面的问题.该文在IBM网络处理器平台上开发了一个硬件防火墙的原型系统,同时对系统瓶颈
随着计算机网络技术、多媒体技术以及数字传输技术的不断发展,在网络、广电、出版等领域使用数字技术产生、传输和保存了大量的图像、视频、音频、文本等不同类型的跨媒体数据
该文用16个金属氧化物半导体气敏传感器和神经网络分类方法建立了一种新的嗅觉模拟装置,开发了一套功能较完善的系统控制软件,并对该装置的实验条件和参数进行了研究.该文重
本文对高性能集群计算机系统和PC机群两种体系结构上的并行体绘制算法和基于图像的并行绘制技术进行了研究和探讨。首先对三维数据场并行绘制的研究现状进行了综述。介绍了体