基于子词解码及系统融合的语音关键词检测

来源 :江苏师范大学 | 被引量 : 0次 | 上传用户:cxc7783
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和移动通讯技术的高速发展,语音数据大规模增长。语音关键词检索技术的诞生,使人们能够在大量语音数据中高效地检索出想要的关键词并返回重要的语音信息,其在信息服务、公共安全等领域有广阔的应用前景。基于大词汇连续语音识别的关键词检索是当前的主流方法,但是目前仍然存在集外词检测率过低、候选词难以判定等问题,本文主要针对语音关键词检测中识别阶段的准确率、集外词检测以及系统融合三个方面进行研究:(1)搭建基于深度神经网络(Deep Neural Network,DNN)、深度前馈序列记忆神经网络(Deep feedforward sequential memory networks,DFSMN)和时延神经网络(Time-Delay Neural Network-Chain,TDNN-Chain)的语音识别基线系统。在清华开源的THCHS-30数据集上,基于TDNN-Chain的基线获得的词错误率相较于DFSMN和DNN基线相对下降了2.2%和1.7%。(2)建立基于加权有限状态转换器的关键词检索系统,提出通过改进阈值选取公式对关键词得分进行规整,通过设定阈值保留合适的候选词。实验证明,经过置信度得分规整,关键词检测性能获得65.3%的相对提升。(3)提出使用带声调信息和带位置关联信息的子词作为解码单元。不同于英语等无调语种,汉语含有丰富的声调信息,而加入声调信息或位置关联信息有助于帮助子词语言模型捕捉词与词之间的切分信息,可以降低关键词和集外词检测的虚警率。实验结果显示在使用得分规整的基础上,使用带声调信息和带位置关联信息的子词使关键词检测性能最高获得了30%的提升,并且其虚警率相对降低了54%。(4)提出一种基于自适应加权的系统融合策略。使用ATWV(Actual Term Weighted Value,ATWV)作为系数对非零项求和加权,更加合理的分配了子系统的权重,能够获得最佳的关键词检测性能。实验结果表明。与性能最佳的单系统检测结果相比,融合后关键词检测性能都获得了相对12.3%的提升。性能提升相同的情况下,本文提出的融合方法的效率更高,时间代价是基于线性逻辑回归方法的25%。
其他文献
学位
学位
学位
深度学习可以最大化的利用图像中的有用信息,受到了广泛关注。研究有效的深度学习算法及其应用在图像融合及超分辨率领域具有重要的研究意义与价值。本文从深度学习理论出发,深入研究深度学习在图像融合及超分辨率任务中的应用方法,将深度学习模型的搭建方法作为研究重点,对基于深度学习的图像融合及超分辨率等问题进行探索性的研究。主要工作包括以下几个方面:(1)研究解决了基于卷积神经网络的图像融合问题。为避免图像融合
学位
学位
学位
学位
近年来教育行业的发展潜力越来越大,能够从市场获得的利润值也在不断增多,因此诸多教育机构纷纷加入该市场,导致最近几年国内教育培训市场呈现迅猛式发展。由于进入教育培训市场的企业数量快速增多,因此竞争压力也持续加大。A教育培训公司为当前国内教育市场一家比较主流的培训公司,但然而伴随着教育培训市场竞争的不断加剧,面临激烈的市场竞争,A教育培训公司呈现出学员流失率增加,规模发展速度放缓等一系列问题。上述问题
学位