基于配位信息的语种识别技术研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户：yuyugugu

【摘要】

：

语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征和声学单元之间的配位信息两大类。配位信息

【作者】

：

关娜娜

【出处】

：

解放军信息工程大学

【发表日期】

：

2017年01期

【关键词】

：

语种识别配位信息各态历经隐马尔可夫模型无监督声学单元发现非参贝叶斯模型 HHMM N-gram

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语种识别作为多语种语音识别技术的前端,在国际交流与合作中扮演着越来越重要的角色。当前语种识别系统使用的特征可分为声学特征和声学单元之间的配位信息两大类。配位信息反映了语音声学单元的搭配关系,是描述不同语种之间差异的一个重要的信息。获取配位信息的主流方法是利用连续语音识别系统将语音转换为声学单元序列后进行统计得到,该方法的不足是需要构建连续语音识别系统。针对此问题,本文从两方面进行研究,一种是借助声学模型,通过从语音特征序列建立的声学模型中获取配位信息;另一种是借助声学单元发现方法,通过发现的声学单元中获取配位信息。在此基础上,搭建语种识别系统。主要工作及创新点如下:针对基于高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)的语种识别系统中忽略了声学单元之间的配位信息的问题,提出基于各态历经隐马尔可夫模型(Ergodic Hidden Markov Model,EHMM)的语种识别方法。为每一个语种建立一个EHMM模型,将EHMM的每个状态看作一个声学单元,状态转移概率表示声学单元相邻出现的概率,即配位信息。实验结果表明,本文提出的方法较基于GMM-UBM语种识别系统的性能有显著提升。研究无监督声学单元发现方法。分别从参数模型和非参数模型两个方面进行研究。基于参数模型的方法采用GMM进行声学单元发现。该方法将GMM每一个高斯分量看作一个类别,每一个类别代表一个声学单元,利用相似声学单元之间高斯分布相似的特点,对声学单元进行聚类,形成声学单元类别集合。基于非参数模型的方法采用非参贝叶斯模型进行声学单元发现。该方法利用层级隐马尔可夫模型(Hierarchical Hidden Markov Model,HHMM)对声学单元建模,将每个顶层状态看作一个声学单元,并用层级狄利克雷过程(Hierarchical Dirichlet Processing,HDP)进行无监督聚类获取声学单元类别集合。最后获取每帧语音分别在各声学单元下的后验概率特征矢量。实验结果表明分别用两种方法获得的声学单元后验概率矢量都反应出实际语音信号的声学片段分布特性。提出基于声学单元发现的语种识别方法。在声学单元发现的基础上,将语音信号转换为声学单元后验概率特征矢量序列,用N-gram联合后验概率的方法统计声学单元之间的搭配关系。首先将表示同一个声学单元的连续几帧语音的后验概率矢量对应位置相加取平均,然后计算N-gram联合后验概率,最后将所有联合后验概率矩阵相加并变成一个矢量,表示该段语音的特征。该方法有效地避免了N-gram统计中易出现的数据稀疏问题。然后用i-Vector进行降维,最后采用支持向量机(Support Vector Machine,SVM)为分类器实现语种识别。实验结果表明,本文提出的方法有效的避免了对标注语料的依赖性,并保证了系统的性能。

其他文献

基于SIFT和三角网格的配准方法研究

图像处理包括图像的镶嵌、拼接、配准等,而图像配准在图像处理领域占据着非常重要的地位,图像配准指的是拍摄时间间隔较大、多个传感器存取等获得的两幅或多幅图像经过处理后

学位

图像配准SIFT算法特征提取Delaunay三角剖分

基于BIM技术的地铁综合管线优化方法的研究

随着经济建设的发展,建筑设计的工作效率要求逐渐提高,但是在传统的设计模式下,各个专业之间设计协调性差,设计路径交叉问题频发,传统的二维设计模式已经无法满足需求。建筑信息模型(Building Information Modelling,BIM)是近些年刚兴起的一种新型三维设计模型,在世界上受到了众多研究者的关注,在工程领域中的应用也越来越广泛。BIM具有可视化、协调性和可优化等特点,是一个应用广泛

学位

BIM碰撞检测协同设计管线综合

面向社会媒体的用户推荐方法研究

随着网络的发展,社会媒体发展也越来越迅速,用户的数量也急剧增长。用户使用社会媒体的主要目的是结交好友和维护好友关系,不断地扩大自己的交际范围。然而因为用户规模的庞

学位

社会媒体用户推荐兴趣抽取转发网络

Thermococcus eurythermalis内切核酸酶Ⅳ切割DNA中的AP位点及其类似物的机制研究

细胞基因组的完整性和稳定性依赖于DNA复制的高保真性、DNA修复酶对DNA损伤的修复效率。DNA损伤主要是指由细胞和环境中物理和化学因素引起的核苷酸和DNA结构的改变,对细胞有

学位

嗜热古菌内切核酸酶ⅣAP位点AP位点类似物SpacerDNA修复切割机制

室内可见光通信与Wi-Fi混合组网关键技术研究

可见光通信(Visible Light Communication,VLC)作为一种新型的无线光通信技术,利用LED灯的快速闪烁传输数据,具有近300THz的频谱带宽可供开发利用,因其数据传输速率快、无电

学位

可见光通信混合组网系统架构信道资源分配模糊逻辑理论可见光通信模糊逻辑理论

互联网金融的技术革新与监管研究

本文以最新的实际案例说明互联网金融在中国是如何容易被异化,成为非法金融活动的手段,并指出现行监管体制和框架很难对这些非法金融活动进行有效的监管和打击。由于无法规、

学位

互联网金融非法集资金融科技金融监管

改进委内瑞拉阿瓜拉州和其他城市间的食物分配过程分析

食物分配不均可能是造成世界范围内饥饿问题这一顽疾最重要的因素之一。食物供应链分配体系的目标不仅是连接生产商和消费者,更是合理地分配食物。由于食物供应链分配效率低

学位

供应链食物分配消费者合作委内瑞拉

基于随机几何的异构蜂窝网物理层安全研究

随着智能化设备与数字化生活的不断发展,追求单小区覆盖大区域的传统同构蜂窝网已经越来越难以承载不断增长的多样化无线数据业务需求。通过层叠部署多样化蜂窝小区以提升网

学位

异构蜂窝网物理层安全随机几何协作安全传输安全能量效率

基于密度聚类的社区发现算法研究

网络是呈现复杂系统的一种有效方法。学者们将那些包含庞大数量的节点和由这些繁多节点连接起来的边组合在一起的最终形态称为复杂网络。与常规网络相比,大规模复杂系统网络(

学位

社区发现复杂网络密度聚类孤立点噪音点

谭某受贿罪案评析

受贿罪长久以来都是理论界和实务工作者争论的热点和难点,由于受贿手段、方式的变化性、多样性,加之刑法条文的抽象概括与现实案件之间总是存在无法直观契合的矛盾,理论界对受贿犯罪争议不断,给司法认定工作带来极大的困难和挑战。而迫于反腐败压力,司法实践中往往将国家工作人员收受财物的行为过分犯罪化。本文以谭某受贿案件为切入点,通过对受贿罪权钱交易特征以及有关司法解释规定的分析,对案例中反映出的具体问题予以评析

学位

受贿罪权钱交易及时退还利用职权地位条件

基于配位信息的语种识别技术研究

与本文相关的学术论文