鲁棒性语音特征提取研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:socks2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是一种人机交互的手段,在如今电子计算机如此普遍的时代,如何让计算机可以智能化接受人类口头指令是一件十分有挑战性并有意义的课题。语音识别跟其他机器学习问题一样,特征的选取是起始的也是最重要的一环,一个具有区分性和稳定性的特征是一个分类问题较好识别率的前提。为得到适合语音信号的特征本文做了以下工作:1.研究了基于多语音参数的频率弯折,并提出了一种基于LDA的频率弯折因子估计算法。影响语音识别准确率的最大问题在于非特定人的特征不匹配问题,针对非特定人差异性问题以往都是以某一单一声学因子(声道、声门、基频)来描述不同人之间的差异性并进行频率弯折,但是由于发声过程是一个复杂的生理过程,它都到多个因素的共同影响,因此单一语音参数的假设也就不可避免的会出现较大误差。本文分别在量的增加和质的改进两个方向上对原有方法进行改进,首先通过直接使用多个语音参数进行多段线性频率弯折方法从数量上进行改进,然后通过对多个语音参数使用LDA进行降维的方法从本质上描述出不同人差异指标,并以此进行频率弯折,实验证明这种方法在消除非特定人差异性方面具有较好的效果。2.提出了一种基于有监督的改进SLPP(监督局部保持投影)算法。由于语言信号分布的时序性,增加基元状态之间的区分性是十分必要的,传统的线性特征变换无法很好的区分相同基元的不同状态之间的非线性流形结构,而非线性变换又无法满足语音识别实时性(拓展性)的要求,因此本文通过对一种通过线性变换来逼近非线性流形分布的半非线性算法进行改进使之更适合语音信号的分布特点,并且增加了监督信息对LPP算法进行改进,从而解决语音特征高维分布非线性和语音基元间的区分度的问题以及纯非线性算法的不可扩展问题。3.研究了基于CNN的语音特征提取算法通过卷积神经网络(CNN)来解决语音信号特征的非特定人和噪声所导致的类内离散度和类间区分度问题。实验中的特征提取部分采用卷积神经网络,尝试结合混合高斯-隐马尔科夫模型并取得了较好的识别效果。
其他文献
<正>时装摄影属于商业摄影范畴,因为时尚且与模特相关,所以许多时装摄影作品美得惊人,甚至摄人心魄,这也吸引了许多摄影爱好者将镜头对准了时尚发布的T台。但是,T台毕竟是一
将100例新生儿HIE随机分为观察组和对照组各50例。即观察组经早期系统护理干预,对照组经常规护理干预。结果观察组随访6、12个月后MDI分别为87.4±8.2分、93.6±9.1分均高于
推进"互联网+意识形态"建设,净化社会主义意识形态的网络空间,是夯实我国网络意识形态阵地的重要举措,能够为"互联网+"行动计划提供必要的精神动力和智力支持,是应对各种"主
<正>事件营销理论背景城市形象,是社会大众对城市的总体印象和评价,它不仅是城市景观所带来的外在表现,更是城市文化、城市精神所带来的内在品质。在新的经济条件下,一个城市
随着由中国政府包揽的福利制度的改革和基本生活必需品价格的上升,国民基本生活费用有了较大的提高,因此个人所得税免征额应向上调整.同时中国应建立纳税人编码制度,引进蓝色
<正>一、棒线材产量与出口量2016年,全球棒线材产量5.86亿吨,其中钢筋2.65亿吨,棒材1.34亿吨,线材1.86亿吨;全球棒线材出口量9837.7万吨,其中钢筋出口2413.2万吨,占棒线材总
目的:观测桃核承气汤早期干预对糖尿病鼠大血管病变中TOLL样受体2(TLR-2)、TOLL样受体4(TLR-4)及转化生长因子(TGF-β)、胰岛素样生长因子1(IGF-1)表达的影响。方法:雄性SD大鼠130只,
随着我国科学技术的快速发展,自动化控制系统在电力工程中的实际应用得到了广泛的关注。文章对电力电气自动化应用进行探析,分析当前存在的的问题,并提出相关解决策略,旨在促
滚动轴承是机械设备重要的零部件,也是最易损坏的零部件之一。一旦发生损坏则会影响机器的正常运转,甚至危及人身安全。因此,针对轴承故障诊断的研究势在必行。声学信号中包
目的探讨石榴皮鞣花酸对肿瘤细胞体外生长的抑制作用及检测荷瘤小鼠抑瘤率。方法 CCK-8法测定石榴皮鞣花酸对体外培养的肿瘤细胞生长的抑制率;流式细胞仪测定肿瘤细胞凋亡情