论文部分内容阅读
语种识别(Language Recognition)是一种自动识别语音数据所属语言的技术,是语音识别以及其他相关应用的前端技术,也是语音技术的重要分支。和说话人识别类似,语种作为一种与语音密切相关的特征元素,也能通过特定方式进行特征化表示。本文根据现行语种识别系统对系统响应时间上的高要求,提出了一种基于动态权重的IV-PTN融合系统,使其在长时语音上保持较好性能的前提下,提高短时语音的识别性能,进而缩短系统响应时间。论文首先介绍了不同种类的语种识别方法。按照方法所利用的语言特性,可以划分为使用声学特征、使用音素特征、使用韵律特征的方法等;按照方法所利用的技术特性,可以划分为基于概率模型、基于神经网络模型的方法等。然后结合近年的工业应用趋势,重点介绍了基于神经网络的PTN(Phonetic Temporal Neural)语种识别系统和基于概率模型的Ivector(Identity vector)语种识别系统。针对Ivector系统对语音时间长度的鲁棒性较弱的问题,本文对Ivector系统和PTN系统进行组合,搭建成新型的融合系统——IV-PTN融合系统,有效提高了系统对语音时间长度的鲁棒性,使其在短时语音的条件下也有较好的性能表现。通过T-SNE算法对不同系统误判的特征进行可视化,发现Ivector系统和PTN系统高频误判的域并不一样,故而提出对融合系统后端添加一个动态权重模块,使其能够根据不同的子系统在特定语音段上误判概率的差异,自动分配不同的融合权重,以实现更优的系统融合效果。论文所采用的数据集为共包含十种不同的语种的AP16-OL7和AP17-OL3。实验中分别以((6(6(6(6(6(6)、EER、ER、DET为评价指标,首先探讨了PTN和Ivector语种识别方法,然后在二者的基础上分别搭建固定权重、动态权重的IV-PTN融合系统。实验结果表明,该固定权重的融合系统性能优于单个子系统。与基于固定权重、基于动态权重的对分数向量建模的系统融合方法相比,本文所提出的基于动态权重的对误判特征建模的方法能实现更优的打分结果。