噪声环境下的鲁棒性语音端点检测算法研究

被引量 : 0次 | 上传用户:jiayunhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
起步于上世纪五十年代的语音识别技术,经历了几十年的研究历程,如今逐渐走出实验室,并慢慢趋向于大规模应用。然而,实际环境中并没有完全纯净的语音信号,往往都伴有噪声或其他干扰(Lombard效应及传输通道变化引起的畸变),实验环境和实际环境存在失配现象,导致语音识别系统在实用时性能急剧下降。而端点检测,作为语音识别系统预处理阶段遇到的第一个关键技术,其准确性在某种程度上直接决定了整个语音识别系统的成败。语音识别系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,这就需要事先从输入信号中找到语音部分的起止点,确定有效语音段的边界,端点检测的目的就是从包含语音的一段信号中确定出语音的起点以及终点,又称语音活动检测(VAD,Voice Activity Detection)。端点检测不仅在语音识别中显得重要,在自适应语音增强和语音编码中也同样重要。传统的端点检测算法都是针对实验室安静环境的,近几年人们才开始研究噪声环境下语音的端点检测,目前随着自动语音识别技术在车载电话通信,免提式语音识别等方面的应用逐渐广泛,研究背景噪声下的鲁棒性(Robustness)语音端点检测算法显得尤为重要。本文首先介绍了近十年国内外学者提出的一些端点检测算法,并分析了其中几种端点检测算法所选用的特征,给出仿真结果和一些改进。随后,提出了噪声环境下的两种语音端点检测新方法。算法一: 在LPC倒谱进行端点检测的基础上提出了基于LPC美尔倒谱(LPCCMCC)的端点检测算法。该算法中对LPC倒谱系数进一步按符合人耳听觉特性的(MEL)尺度进行非线性变换,求得LPC美尔倒谱系数(LPCCMCC),并以此作为端点检测的特征,该特征既考虑了声道特性,又符合人耳听觉,仿真实验结果表明了它的优越性[文章已被录用]。算法二:针对汉语语音的特点,提出了基于汉语语音学知识的两级鲁棒性端点检测算法,选用时域短时能零比和频域短时浊音频带(200-1000Hz)谱幅作为特征,采取自适应门限,在常见噪声环境(交通,汽车,背景说话人噪声Babble,白噪声等)下效果较好,算法实现简单,环境适应性较强[文章部分内容被录用]。文章最后对近两年出现的一些研究新方向作了简单介绍和展望,指出了端点检测的发展前景。
其他文献
针对银川周边高矿化度湖泊相软土地基水泥土桩法处理问题,在软土天然含水量下,固定水泥掺量,应用搅拌法制备边长70.7 mm的立方体试件,标准条件养护,通过SANS万能材料试验机测
概述了国内外钢筋混凝土结构服役过程中的性能在线评价技术和无损检测技术 (包括动态无损评价技术和静态无损评价技术 )发展现状 ,重点阐述了建立钢筋混凝土结构服役可靠性和
黄河三门峡水库修建运用后,渭河下游的水沙条件与河床演变已发生重大改变,渭河下游由相对冲淤平衡的河流变为强烈堆积性河流,由不设防河流变为设防河流,由地下河变为地上悬河,由安
[目的]建立甲基苯丙胺(methamphetamine,MA)依赖大鼠模型,使用天麻素进行干预,观察甲基苯丙胺依赖大鼠相关六个脑区(伏隔核、纹状体、海马、额叶皮质、黑质、中脑腹侧被盖区)
由于虚拟企业联盟伙伴关系的复杂性和虚拟联盟形式的多样性以及联盟伙伴的具体情况的差异性,所以在虚拟企业建立、运营和解散的全过程中,应根据具体情况,灵活地综合运用各种方法
改革开放以来,外商对华直接投资迅猛发展,外资经济已经成为中国国民经济中重要的组成部分,对我国经济社会的各个方面都产生了重大影响。面对加入世界贸易组织之后的新情况和经济
道德信仰问题是道德建设中的重要组成部分,它从根源上解决“人为什么要讲道德”和“人应具有什么样的道德”的问题。在目前面临社会转型的中国,精神文明建设面临重重困难,集中于
[目的]为探讨青贮甜高粱秸秆饲料对肉牛生产性能的影响,[方法]分别利用甜高粱秸秆与玉米秸秆青贮饲料组成的日粮饲喂肉牛。[结果]表明:对照组、试验组日采食量分别为7.03kg、
<正>读到《炎黄春秋》2013年第3期蒯大富口述、米鹤都整理的《清华批斗王光美始末》,很高兴,我觉得蒯大富讲的是比较实事求是的,通过这篇文章,使我进一步了解了清华文革的很
随着股份制经济改革由试点转为规范发展,并成为经济体制改革的一个核心,股票市场也获得了很大的发展,在我国经济建设和国有企业改革中做出了突出贡献。但是,股票市场中也存在许多