论文部分内容阅读
语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征和声学单元之间的配位信息两大类。配位信息反映了语音声学单元的搭配关系,是描述不同语种之间差异的一个重要的信息。获取配位信息的主流方法是利用连续语音识别系统将语音转换为声学单元序列后进行统计得到,该方法的不足是需要构建连续语音识别系统。针对此问题,本文从两方面进行研究,一种是借助声学模型,通过从语音特征序列建立的声学模型中获取配位信息;另一种是借助声学单元发现方法,通过发现的声学单元中获取配位信息。在此基础上,搭建语种识别系统。主要工作及创新点如下:针对基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的语种识别系统中忽略了声学单元之间的配位信息的问题,提出基于各态历经隐马尔可夫模型(Ergodic Hidden Markov Model,EHMM)的语种识别方法。为每一个语种建立一个EHMM模型,将EHMM的每个状态看作一个声学单元,状态转移概率表示声学单元相邻出现的概率,即配位信息。实验结果表明,本文提出的方法较基于GMM-UBM语种识别系统的性能有显著提升。研究无监督声学单元发现方法。分别从参数模型和非参数模型两个方面进行研究。基于参数模型的方法采用GMM进行声学单元发现。该方法将GMM每一个高斯分量看作一个类别,每一个类别代表一个声学单元,利用相似声学单元之间高斯分布相似的特点,对声学单元进行聚类,形成声学单元类别集合。基于非参数模型的方法采用非参贝叶斯模型进行声学单元发现。该方法利用层级隐马尔可夫模型(Hierarchical Hidden Markov Model,HHMM)对声学单元建模,将每个顶层状态看作一个声学单元,并用层级狄利克雷过程(Hierarchical Dirichlet Processing,HDP)进行无监督聚类获取声学单元类别集合。最后获取每帧语音分别在各声学单元下的后验概率特征矢量。实验结果表明分别用两种方法获得的声学单元后验概率矢量都反应出实际语音信号的声学片段分布特性。提出基于声学单元发现的语种识别方法。在声学单元发现的基础上,将语音信号转换为声学单元后验概率特征矢量序列,用N-gram联合后验概率的方法统计声学单元之间的搭配关系。首先将表示同一个声学单元的连续几帧语音的后验概率矢量对应位置相加取平均,然后计算N-gram联合后验概率,最后将所有联合后验概率矩阵相加并变成一个矢量,表示该段语音的特征。该方法有效地避免了N-gram统计中易出现的数据稀疏问题。然后用i-Vector进行降维,最后采用支持向量机(Support Vector Machine,SVM)为分类器实现语种识别。实验结果表明,本文提出的方法有效的避免了对标注语料的依赖性,并保证了系统的性能。