集外词的语音检索方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:aujnqejbrob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音检索是多媒体信息检索的重要研究方向,基于大词汇连续语音识别的检索算法是当前语音检索中的主流算法。集外词是一些经常被用户检索但是不在识别词典中的词,相比于集内词检索,集外词检索性能严重下降是语音检索面临的一个主要挑战。集外词检索的主要难点有:发音不确定性,词性质的多样性,声学模型和语言模型的高度弱模型性。为了解决集外词问题,提高集外词检索性能,本文首先着力于建立一个高性能的子词识别器。本文采用多种训练算法提高语音识别率,在基于混合高斯模型-隐马尔科夫模型(GMM-HMMs)的声学建模中,采用最小音素错误(Minimum Phone Error, MPE)准则来提高模型区分性;进一步,采用深度神经网络(Deep Neural Network, DNN)声学模型替代GMM模型,并使用跨语种训练和矫正线性单元(Rectified Linear Units, ReLUs)激活函数改善DNN声学模型性能;针对小语种问题,提出使用自动生成问题集来减少声学模型的数量。通过以上方法,明显提升了声学模型的建模能力。针对集外词被词识别系统错误识别的问题,使用音素、音节、词片三种子词单元作为解码单元,降低集外词语言模型的弱模型性,提升解码过程中集外词的音素识别率。其次,在集外词的子词检索系统建立过程中,考虑到三种子词间的性质差异,本文对三种子词检索系统使用不同的检索策略。对基于音素的STD系统使用基于加权有限状态转换机(weighted finite state transducer, WFST)完全匹配检索的方法降低虚警;对基于词片和音节的STD系统使用模糊匹配检索减少漏警。为了处理集外词词性质的多样性,本文使用词项相关置信度归一化方法对得分进行规整。另外,考虑到不同识别系统的输出的互补性,本文提出了基于线性逻辑回归的多系统融合策略,进一步提高置信度的可靠性。使用这些改进算法,本文分别在NIST STD2006英语关键词检索数据库和NIST STD2013越南语关键词检索数据库上进行了实验,获得了明显的关键词检索性能提升。
其他文献
在组播网络中,网络编码(Network Coding)已被证明是一种能够获得最大流容量的有效方式,可以提高无线网络吞吐量、改善负载均衡、减小传输延迟、增强网络鲁棒性。在无线网络利
无线局域网(WLAN)技术被广泛用于移动设备、计算机、智能电视、网络设备等多种通信产品中,已经成为目前应用最为广泛的宽带通信技术。近些年,由于移动互联网的迅速发展,蜂窝
压缩传感作为一种新兴的信号处理理论,凭借大大低于奈奎斯特采样定理所规定的速率对被测信号进行采样。压缩传感将数据采样和压缩同时进行,再利用重构算法对少量的测量值进行
随着信息学和生物医学的迅速发展,基因表达谱数据的获取变得越来越容易,且获得的数据具有很高的准确性。近年来,研究人员已成功地将生物医学问题转化为模式识别问题,其典型应
OTN逐渐成为铁路骨干层传输所采用的主要技术,铁路通信网的建设也将以OTN为主要发展方向。现阶段OTN传送网已由10G时代向40G、100G时代迈进,在这种超高速、超大容量的光传送网
近年来,甚高频数据交换系统VDES(VHF Data Exchange System)在世界海事领域得到了广泛关注与推崇,并确定作为未来e-航海战略核心系统的数据交换平台。相对于现有的船舶自动识
学位
非线性光学材料在全光信息处理和特殊光功能模块方面具有重要的研究价值,是近年来一个非常活跃的研究领域。碳纳米管(Carbon Nanotubes)具有优良的三阶非线性光学特性,该特性
学位
随着移动互联网和智能终端的快速发展,移动数据流量呈现爆炸式的增长,同时超过80%的移动数据流量产生在室内热点地区。大量的移动数据和分布的不均匀性给传统的蜂窝移动网带来了