基于关键词检出的说话人自适应技术研究

被引量 : 8次 | 上传用户:ZHANGXIANYU0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来非特定人的语音识别系统已经取得了令人鼓舞的性能。但是在实际应用时,由于环境和说话人的改变导致了训练和测试条件的不匹配,使得系统的识别性能显著下降。语音识别要走向实用化,就必须克服环境和说话人对系统的影响,因此语音自适应技术有着非常重要的意义。 本文以说话人自适应技术作为研究对象,分别从说话人归一化、模型:参数自适应和说话人聚类,即特征提取、模型调整和集合理论三个不同的角度对说话人自适应技术进行了详细地研究。说话人归一化包括倒谱均值归一化(CMN)和声道长度归一化(VTLN)。实验证明CMN方法简单易行,不仅能减少不同说话人间的差异,而且能有效地消除信道畸变的影响。VTLN方法中采用估计平均第三共振峰来计算频率折叠因子,并且分别利用线性、非线性和双线性变换来完成频率折叠,实验中将成年女性的特征归一到成年男性特征下,然后用男性模板识别女性测试数据,关键词检出率提高了12.59%以上。在模型参数自适应中,本文结合最大后验概率(MAP)和最大似然线性回归(MLLR)算法,在建立二叉树回归类的基础上,构建了结构化自适应算法,该算法有机地将MAP和MLLR算法结合起来,发挥了各自的优点。此外,本文还重点介绍了基于GMM的说话人聚类算法,该算法聚类过程需要的训练数据少,聚类速度快。同时对计算高斯混合模型间的距离做了深入的研究,提出了两种新的模型间距离度量方法——混合加权距离度量和概率距离度量。这两种度量方法计算简单,实验效果非常好。在系统实现的过程中,文中将上面提到的三种说话人自适应技术有机地结合起来,构建了稳定的自适应模块;另外分別应用了噪声抑制算法、话音激活技术和基于支持向量机的拒识算法增强了关键词检出系统的鲁棒性。最后给出了本文的结论和进一步研究的方向。
其他文献
投入产出价格模型分为初始投入价格模型和产品价格影响模型。在利用线性规划建立的投入产出价格模型中,无约束的线性规划和对偶理论可以得到初始投入价格模型,有约束的线性规
2004年<中国制造业1000强>报告显示,企业只有实现销售收入10亿元以上才能被列入榜中。排在榜首的中国宝钢和中国一汽的销售额均突破1200亿元。这说明我国的企业已经取得了长足
现代军事信息系统的智能化、网络化发展趋势日渐明朗,以军事信息系统为对象的信息战作为一种全新的作战形式走上了现代战争的历史舞台。交战双方把遏制和破坏对方的信息网络系
随着社会的飞速发展,企业的管理也在发生着深刻地变革。当前人们对质量的要求越来越高,质量是企业生存的根本保障。本文通过对我国制造企业管理现状的调查,将六西格玛理论引
本文论述了高精度程控数字电压表的设计原理及实现的方法。该电压表可实现对交直流电压,电流、频率、周期、温度等物理量进行高精度测量,并具有量程手动、自动切换、结果的液晶
中国今天的环境问题有其历史发展的过程。秦汉时代在黄河流域普遍发展农耕业,以及为防御北部游牧民族的内侵,在黄土高原上驻兵屯田,大规模的伐垦森林和草原,使原来就非常脆弱
中国-瑞士自贸区是中国与传统发达国家签订的第一个自贸区,作为"南北合作"的典型,其对中国与发达国家开展经贸合作具有重要借鉴意义。在梳理中国、瑞士双边贸易合作现状基础
<正>目前,我国正处于社会和经济飞速发展的转型期,世情、国情发生深刻的变化,人的行为、生活、观念都发生了明显的变化。这些变化一方面促进了人的开放、竞争、公平意识的普
近年来,现代物流在社会经济中的地位变得越来越重要,并逐渐引起人们的关注,现代物流与经济增长之间的作用关系也成为各级政府和理论界共同探讨的话题。在阅读和归纳分析相关文献
社会救助和保障是社会保障制度的重要组成部分,其标准高低与市场物价密切相关,应当随着市场物价变化而相应变动。通过对社会救助和保障标准与物价上涨挂钩联动机制含义、建立