电话语音语种识别算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:hongsx14
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语种识别(Language Identification)的目的是判断所给语音片段所属语种,与说话人及说话内容无关的。随着“地球村”的日益发展和移动终端的普及,语种识别技术在提供多语种人工语音服务和军事安全等方面也有着极为重要的作用。本文主要研究电话语音的语种识别算法。具体来说:1、研究了语种识别中的特征提取,将MVDR和GFCC特征应用到语种识别中。针对电话语音噪声干扰较大的问题,本文研究了说话人识别中的特征MVDR、GFCC,将其应用到UBM-GMM(?)吾种识别系统中分析其抗噪声鲁棒性,并进行参数优化。2、研究并搭建了语种识别中主流的UBM-GMM、PPRLM以及SVM三个基线系统,并进行改进研究。在UBM-GMM系统中,针对训练样本的不足以及样本质量不一的问题,通过选择边界样本对模型进行训练优化,提高模型的准确性;针对测试语音中存在多种语种片段干扰和短时噪声的问题,提出按时长分段得分方法对得分进行优化,使得系统在短时测试集识别准确率有了一定提高。在PPRLM系统中,建立了基于汉语音素识别器的PRLM系统,并分析训练语言模型过程中不同的内插背景模型对建模的影响。相比没有内插时,系统识别准确率有了较大提升。在SVM方面,建立了基于GMM的SVM识别系统,分析了高斯得分矢量和GSV两种方法在语种识别中的应用。GSV可以获得更好的识别准确率,并且识别准确率优于UBM-GMM系统。3、基于多特征和多分类器的集成学习研究。针对单一基线系统识别准确率较低的问题,本文从多特征集成和多分类器集成两个方面展开研究。两种集成学习在一定程度上提升了系统最终识别准确率,基于三种基线系统的多分类器集成学习优势较为明显,说明各基线系统之间存在较强的互补性。
其他文献
无线传感器网络技术是二十一世纪能产生巨大影响力的关键技术之一,具有巨大的市场需求和良好的发展空间,而节点定位作为其支撑技术之一,是一个有挑战和价值的研究热点。现有
本文以采集自舟山群岛的九个隔离岛屿和宁波的北草蜥(Takydromusseptentrionalis)为模型,探讨形态和繁殖生活史特征的小地理尺度变异,检测温度对卵孵化以及幼体表型特征的影响
目前,国内的电信运营商都进入了全业务运营的新阶段,逐渐从追求粗放的规模增长,转向挖掘客户需求,为用户提供细分的定制服务。但是,随着以微信为代表的移动互联网行业高速发
现在的网络的构架大部分是在30年前建立的,那时候大部分的网络使用者都是研究人员,用途也仅仅是一小部分工作伙伴或者朋友之间交流信息。随着网络的使用范围越来越广,30年前
黄河中游地区水土流失严重,不合理的黄土坡地利用方式是产生这种现象的重要原因之一。国家在该地区开展了一系列的生态建设,形成了不同的坡地景观格局。本文以小浪底库区为例,采
基于视频概念检测的视频检索技术目的在于提取视频中的高层语义,来解决海量视频的产生和传输带来的一系列的组织、过滤、分类和检索的问题,具有巨大的科研价值和广阔的市场前
丹参根腐病是丹参的严重土传病害,以山东省聊城市茌平县杜郎口镇中药材种植基地采集的根腐病丹参为试材,从病根中分离到了三种致病菌,分别为DS-1,DS-2,DS-3。并对DS-1菌株进
在1998年,美国联邦通信委员会对运营商和设备制造商提出了移动定位技术要求,以满足Enhanced-911安全服务。其中,基于网络定位方法的精度要求是100米(67%)和300米(95%),基于终
乙型肝炎是由乙型肝炎病毒(HBV,hepatitis B virus)引起的一种影响人类健康的重要传染病。乙肝疫苗的接种是目前控制乙型肝炎感染的最有效的措施,但是传统的乙型肝炎亚单位疫苗
回声抵消是现代通信系统中必须要解决的问题。回声包括线路回声和声学回声两种。现代通信系统的回声路径一般很长。在公共交换电话网络(PSTN)中,回声抵消器必须能够处理长达12