基于语音数据异质性信息处理的声学建模研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:renrenxiaonei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号中包含丰富的信息,除文本内容外还包括很多与语音识别任务无关的部分.这些信息的典型来源包括说话人性别、年龄、情绪、说话风格、背景噪声、传输信道等因素,在该文中被统一定义为异质性信息.对语音数据异质性信息的处理正日趋成为当前语音识别界研究的重点之一,其原因有二:首先,异质性因素的存在将会导致声学模型参数的非线性畸变,从而造成误识率的升高和模型推广能力的下降;其次,随着语音识别技术的发展,越来越多的异质性相对明显的现场数据参与到了声学模型的训练过程中.因此无论从研究的必要性还是从紧迫性方面来看,数据异质性信息的处理问题都亟待解决.认识问题的过程是分析和综合的统一.作为全文立论的基础之一,该文对当前主流语音识别系统的框架结构和作为该文主要研究对象的声学模型的训练准则进行了全面综述,一方面界定该文的研究目的和意义,另一方面指出区分度训练对于解决语音数据异质性问题大有裨益.作为全文立论的基础之二,我们多方面分析了异质性信息对语音数据分类和建模可能造成的影响.在这些基础之上,该文对目前可行的解决方法做了全面的总结,并依据算法的实质将它们分为多套模型分而治之、消除、描述和利用四大类.分析的目的是为了综合,并提出解决方案.为此我们分别进一步研究了多套模型分而治之、消除、描述几种策略,并遵循"在变化中寻找相对不变性,并为之建模"的指导思想,提出了一种协同消除和描述策略的解决方案.
其他文献
学位
工程应用中的分散环境下,Agent个体在自主实现自己任务的同时,还可以通过网络和多Agent系统内的其它Agent进行通信,协作完成由系统内下发的新的任务。我们采用基于Speech-act
本文从传统供应链的设计和构思开始,介绍了供应链和供应链管理的概念,供应链的主要特征、类型划分、基本结构和流程参考模型。论文还介绍了复杂自适应系统理论的定义、基本内容
本文针对非线性对象的干扰抑制问题,首先利用T-S模糊模型进行建模,将非线性问题转化为本质为非线性的T-S线性模型,在考虑模糊子系统相互作用基础上,把闭环系统稳定性和性能指
精确的电能计量对核算发、供电电能,综合平衡及考核电力系统经济技术指标,节约能源,合理收取电费等都具有重要意义。电能计量装置的综合误差包括电能表的误差、互感器的合成误差及电压互感器(PT)二次回路压降(简称PT二次压降)引起的误差。室外的电压互感器一般与控制室的电能表相距较远,其间除连接的二次导线外,还有开关、保险、端子排等电气元件,这些元件的接触电阻是随机变化的、不可预测的,在二次回路中引起的压降
本文主要研究了基于B/S模式的控制系统计算机辅助工程网络化软件的设计与开发问题。计算机技术和网络技术的迅速发展及其良好的应用前景,使之成为各种信息的载体,同时,网络模
本研究从智能软件代理技术的基本理论出发,讨论移动代理的编程实现机制,提出了一种基于多代理架构的分布式软件整合系统模型。为了探讨该模型的可行性,并深入分析基于该模型系统
该文旨在提出一种新的软件可靠性模型--多适应软件可靠性模型(MASREM)--来减少或避免以往大多数可靠性模型所存在的主要问题,如模型的使用范围狭窄、估计精度较差、模型理论
针对国内企业对内燃机车维护管理的现状,提出了基于状态监测,对机车机械故障预防维护时间进行智能调整的方法,目的是提高内燃机车的维护管理水平,减少企业对机车维护管理上的资金
随着信息技术的飞速发展,逐渐形成了自动化领域的管控一体化网络集成自控系统,现场总线正是这项技术变革的产物之一.本文在阐述了网络控制技术的发展、Web技术、ADO和ASP技术