基于大词汇量连续语音识别的语音检索技术的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:goskatecomcn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于大词汇量连续语音识别(LVCSR)的语音检索是音频信息检索的重要研究方向。本论文针对该方向的三个重要技术问题进行研究:第一,从多途径来提高语音识别结果的准确性;第二,针对检索问题改进语音识别输出内容的结构形式;第三,改进检索结果的置信度以提高可靠性。   语音识别系统的输出包含的正确结果越多,相应检索结果的正确性和召回率越高。针对这一问题,本文一方面采用多种算法提高识别系统的识别率,另一方面将不同语音识别系统进行融合来提升检索性能。本文分别采用基于最小音素错误(MPE)准则的区分性训练方法和基于特征拼接的TANDEM方法提高识别系统的识别率,得到了两个改进的LVCSR系统,之后利用系统融合的方法将二者进行融合,再应用到语音检索系统之中。   在语音检索系统中,LVCSR输出的多候选内容通常被保存为网格结构,但网格中包含很多无用和重复的信息,使得检索性能不太理想,需要对其进行剪枝和规整。本文在传统的基于网格的语音检索基础上,采用了混淆网络结构来优化网格,建立了基于混淆网络的语音检索系统,并给出了传统聚类算法和快速生成算法这两种混淆网络的生成方法。   考虑到语音识别存在错误,检索系统需要对识别阶段给出的候选词进行置信度打分,以提高检索结果的正确性。本文在语音识别的词后验概率置信度的基础上,提出了用与LVCSR无关的置信度来补充语音识别过程中的置信度的思想。通过计算候选结果基于模板语音的动态时间规划匹配得分,将其作为一种置信度与词后验概率相融合,提高了关键词判决的准确性。   本文提出的改进算法在标准的NIST关键词检测数据库上进行了实验,从实验结果上验证了这些算法的有效性。
其他文献
TD-LTE是我国拥有自主知识产权的3G标准TD-SCDMA的后续演进技术,旨在满足用户对日益增长的高质量移动多媒体服务的需求。OFDM、MIMO技术因在高速数据传输中具有良好的抗多径衰
当前灾害频发,但救援人员在救援现场的工作安全情况却一直没有有效的监测措施。如果能够在各种危险场合及时准确地监测救援人员的工作位置和工作状态,如人员在建筑物内的具体
LTE(Long Term Evolution)是全IP(Internet Protocol)的分组交换网络,以往2G、3G等电路域交换网络上的语音通话技术在LTE上已经不能够适用,因此需要一种新的全分组域的语音通
分形作为非线性科学的重要分支之一,其理论和方法在雷达、声纳、无线通讯、射电天文等诸多领域得到了广泛的应用研究。在前人研究成果的基础上,本文着重对海杂波的分形特性及其
随着无线通信业务的高速发展,频谱资源的严重不足日益成为遏制无线通信事业发展的瓶颈,感知无线电(CR)技术由于能有效提高频谱利用率而备受关注。传统的感知无线电技术需要检测
无线自组网是由一组自带无线收发装置的移动节点组成的无线网络系统。无线MAC协议处在无线自组网的较低层,它决定节点接入信道的方式。由于自组网的无中心、自治自愈、节点移
目前,果蔬生鲜等农副产品在网上逐渐热卖,本课题以水果为例进行研究,主要围绕两个问题展开:一是如何让用户快速在网上商城选择心仪的水果;二是水果如何搭配吃才更健康合理。
距离信息的获取是计算机视觉领域非常热门的研究方向之一,PMD(PotonicMixer Device)相机可以实时高效的获得目标的距离信息,然而存在随机噪声较大,水平分辨率低、缺少表面信息等局
随着人工智能技术的飞速发展,具有高智能性移动机器人的研究受到了国内外研究者的广泛青睐。路径规划是机器人智能控制技术中的一个重要问题,具有智能学习能力的路径规划算法的
学位