语音识别中的特征不变性研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:goodcareer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类进行信息交流最直接有效的方式,在当前移动互联网以及硬件智能化快速发展的大背景下,语音识别技术正逐渐受到大家的重视。目前语音识别已经成为人机交互领域的重要接口之一,但与此同时,语音识别还存在不少问题,比如语音特征对于语义信息的不变性问题,语音中混杂着语义信息和说话人的个性信息,而对于语音识别而言,人的个性化信息会模糊掉特征之间的边界,因此为了增强语音特征对于语义信息的不变性表达,本文做了以下三个方面的工作:1、提出一种将声门共鸣频率因子和共振峰频率因子进行加权融合的频谱规整算法以往频谱规整算法在解决非特定人发音生理上的多种差异时往往只是考虑了其中某个单一差异,比如说声道、声门。但实际上人的发音是一个复杂多变的过程,不同的发音差异并不是互相独立的,因此只考虑某一个方面的差异并不能够很好地解决不同人对于语音特征不变性的影响,因此本文提出一种将声门共鸣频率因子和共振峰频率因子进行线性加权和非线性加权的频谱规整算法,该算法在频谱规整的过程中都综合考虑了声门和声道的差异同时频谱对齐的方式更加平滑确保在频谱规整的过程中能够最大程度地保留语义信息,实验结果验证了算法的有效性。2、提出一种结合VTLN和频谱倾斜补偿的特征提取算法人发音时是通过改变声道的形状来改变发音内容,因此不同人声道的差异必然会在语音中引入人的个性化信息。声道主要影响的是共振峰的位置,同时共振峰的幅度也有所不同。共振峰是表征语音音色的重要指标,以往语音识别中更多的是解决共振峰在位置上的差异而忽略了幅度上的差异,实际上幅度的不同也会影响到语音特征,因此本文提出将声道长度归一化VTLN和频谱倾斜补偿相结合的特征提取算法,该算法能够同时解决不同人发音差异造成的共振峰在位置和幅度上的差异问题,实验结果验证了算法的有效性。3、研究用有监督NPE(近邻保持嵌入)算法对语音特征进行降维变换处理语音特征中的冗余信息导致特征分布出现了类间重叠以及类内发散的问题,因此本文研究从降维的角度出发消除语音特征的冗余信息,在无监督近邻保持嵌入算法的基础上引入语音的分布信息同时增加类间约束,但是实验结果并不理想。
其他文献
磁场的强弱和运动速度的大小决定了比荷一定的粒子的运动半径,磁场分布的位置(或者粒子进出磁场的位置)和磁场在空间分布的范围限定了圆周运动的轨迹,从而决定了圆周运动、所
党的十七大报告从新的历史起点出发,在党的十六大确定的全面建设小康社会目标的基础上,对我国发展提出了更高的新要求。如"转变经济发展方式";注重发展社会事业、关注民生;强
<正> 1.前言中国联通已经建成了世界第一大 CDMA网络,全网已升级为 CDMA1x。网络覆盖广度和深度与中国移动的 GSM 网络旗鼓相当,网络容量达到7000万。基于 CDMA1X 的无线彩票
党的十六大报告明确界定了社会主义市场经济条件下政府职能的范围、方向、重点和界限.在中国社会主义市场经济条件下,政府职能之所以要转变,是由于传统体制下形成的大政府管
<正>苦瓜是葫芦科苦瓜属一年生蔓性草本植物。长期以来,在我国大部分地区苦瓜的栽培模式为一年一季,即以春季露地栽培为主。其生长周期长,可一直采收至秋后。一、品种选择春
期刊
日前,美国骨科专家Frost教授提出了一个新观点:在骨质疏松的发病机制中,非机械因素(钙、维生素D、激素等)并非是最主要的,而在神经系统调控下的肌肉质量(包括肌块质量和肌力)是决定骨
报纸
目的探讨血清壳多糖酶3样蛋白1(CHI3L1)在慢性乙型肝炎(CHB)、肝硬化和肝癌患者中的应用价值。方法收集安徽省立医院感染病院2016年1月~2017年2月经临床确诊的96例患者血清标
<正>党的十九大作出中国特色社会主义进入新时代的重大政治论断。习近平总书记对新时代党的建设提出了打铁必须自身硬,全面从严治党永远在路上的新要求、新部署,这些要求和部
当归总酸对氯仿-肾上腺素、乌头硷、氯化钡等诱发的动物药物型心律失常有明显的保护作用。并能明显抑制小鼠自发活动、增加小鼠常压下的耐缺氧能力。
O2O简言之就是把线上服务和先下的商务机会合理的结合到一起,让互联网为线下的商务合作来服务。笔者对此提出研究,分析了其构成及应用,以期为现行的制度提出更宽广、适用的标