神经网络在语音质量客观评价中应用的研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:qwert730202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统的基于听觉模型的语音质量客观评价方法中,通常需要引进过于复杂的符合人耳特性的数学模型,用来描述听觉系统的感知行为,给实际使用带来了很大的不便。 本文将从谱失真测度本身出发来解决这一问题,即用较简单的特征参数描述语音信号的谱特征,如Mel频率倒谱系数(MFCC)和Bark谱距离(BSD)测度,来代替复杂的数学模型逼近,而把那些反映听觉特性复杂的处理功能放在矢量测度中来定义和计算。并且,对于高度非线性的听觉系统,采用从有限的实际样本中“自学习”到具有输入输出关系能力的人工神经网络模型来实现。在这有限的样本有足够的代表性的条件下,可以较好地逼近真实的听觉特性。基于这一思路,本文针对语音质量客观评价的应用,以多层感知器和径向基函数网络模型替代MFCC、BSD参数对应的欧氏距离,并以主观评价结果作为期望值对网络进行训练,得到了既真实充分地反映了人耳听觉特性,又计算简便的谱失真测度。 径向基函数神经网络由于基函数具有快速学习能力的特性,并且所需逼近的非线性函数的形式对网络性能的影响并不是至关重要的,所以成功应用网络的关键因素是基函数中心的选取,中心选取不当构造出来的网络性能一般不能令人满意,故本文用了大量的篇幅讨论了高斯函数中心的选取算法,以便有助于网络能够成功地用于实际。 网络所需要的训练样本数据应该是典型的、均匀分布的,整个数据集能够代表所有数据特征的,但稍微有些冗余数据也是允许的。由于输入网络训练的语音谱失真测度数据是高维的,充斥着冗余数据和垃圾数据,所以对数据的预处理要求很高,本文也给出了数据预处理的方法。 最后,结合本文所得结果和其他文献得出的结果进行了比较和分析,并指出了今后的研究工作重点。
其他文献
Internet作为通信与信息传播的工具正快速发展并且广为人们所接受。其中的安全与隐私问题也越来越突出,在一些应用如电子投票(E-Voting)、电子银行(E-Banking)、电子商务(E-Co
虚拟现实技术是最近才出现的一种新技术,它的目标就是提供一个可以让用户沉浸并参与其中的虚拟场景.虚拟现实技术给用户带来很多的新意,从而很快就得到了迅速的发展.VRML语言
随着计算机应用的越来越广泛,每年都要积累大量的数据,使得数据挖掘技术变得越来越重要。目前,数据挖掘在我国各行各业来说都还是一个较新的概念。可以预见,在不远的将来,数据挖掘
健壮性图着色问题(Robust Graph Coloring Problem-RGCP)是经典图着色问题的一种新的扩展,它有很大量的实际应用,比如说人员排班、排课等等.经典图着色问题的目标是寻找最小
随着计算机系统复杂性的不断增长和各种入侵攻击的不断加剧,传统的入侵容忍系统由于缺少自适应性和不具有自我管理的功能,从而无法适应日益复杂多变的系统安全需求。为此必须寻
随着互联网的发展及社会信息化的发展,信息呈爆炸式增长,人们对信息获取的要求越来越高,不断推动信息检索技术的发展。当前主流商用搜索引擎仍然采用基于关键词查找的方式。这种
数据库用户认证是数据库服务器通过一些手段判断是否允许客户端以它所要求的用户名进行联接的过程。它是认证技术和数据库技术的紧密结合。随着各种第三方认证产品和加密技术
时空数据建模是实现时空数据库系统的基础。本文讨论了时空数据库中时空建模技术的发展过程,同时为时空分析数据库系统STADBSII设计了基于Realms的二级平衡二叉树模型。STADBS
时间信息是计算机网络中,尤其是分布式控制系统中最重要的基础信息。网络中的时间同步是一个重要的研究方向,时间同步是很多基于网络的关键应用的基础。随着网络技术的发展,
本文首先分析了Internet环境下具有大量信息交互的远程教育应用的多方通信特征,提出了为远程教育系统设计多方通信协议的基本原则。参照这些原则对多种可靠组播协议和应用级组