基于神经网络的语音识别技术研究与实现

来源 :电子科技大学 | 被引量 : 20次 | 上传用户:htvit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术自诞生以来就对人类的生活方式产生了深远的影响,因此语音识别技术一直以来都是世界各地学者们深入研究的热点。目前语音识别广泛采用动态时间规整(DTW)技术和基于概率统计原理的隐马尔可夫模型(HMM)技术,将人工神经网络(ANN)应用于语音识别是近年来提出的一种较新的研究方法。语音是一个复杂的非线性过程,因此基于非线性理论,具有自适应性、并行性、鲁棒性容错性和学习性等特点的人工神经网络技术逐渐成为时下语音识别新的研究方向。本文以神经网络中使用率最高的BP网络为模型,初步探索了其在语音识别领域中的应用。本文的研究内容和成果如下:首先,从语音识别的层次模型和系统模型上分析了语音识别的基本原理。研究了语音预处理的整个流程,包括对原始语音信号的采集、预加重、分帧加窗和端点检测,并探讨了不同语音特征值的获取方法,重点分析了美尔频率倒谱系数(MFCC)的提取流程。其次,介绍了人工神经网络的基本结构和特点,并重点分析了三层前馈型误差反向传播(BP)网络,给出了其标准算法的推导过程,分析了该算法存在的缺陷和不足,并在前人研究的基础上做出了对神经元传输函数进行调整的改进。具体方法是通过向tan-sigmoid激活函数引入温度系数和位置系数从而使网络参数信息更加丰富,加快收敛速度,给出了改进算法的推导过程。在改进的BP算法中引入了动量因子,并且采用批处理的训练方式,通过一个简单的函数逼近实验验证了改进算法的有效性。最后,通过matlab和vs开发了一个基于BP神经网的语音识别仿真系统,使用自录的语音完成对系统的训练和识别。在系统中采用了一种时间规整算法,用来对提取的特征参数进行压缩合并,以满足后端BP神经网络对输入数据维数相同的要求。通过实验可以得出如下结论:改进过后的学习算法在识别率和收敛速度上均要优于传统的BP训练算法;基于人耳听觉模型的美尔频率倒谱系数识别效果要好于基于说话模型的线性预测倒谱系数;BP网络隐含层神经元的个数对系统识别率有较大的影响,需要通过实验来确定最佳取值。
其他文献
交换式以太网的高通信速率与低成本使其在工业领域得到了快速的发展,已被广泛的应用于工业控制领域。针对以太网在工业领域中的可靠性和确定性等问题,论文通过对现有以太网冗余
近年来,随着Internet的飞速发展,越来越多的研究机构、团体以及个人开始注意到网络,并通过它来发布信息、查找信息。尽管Internet上有海量的信息,人们还是常常感到不能够找到
随着互联网在规模上的飞速扩展和在应用上的广泛普及,人们的工作和生活已经越来越离不开网络。特别是网络多媒体技术的出现,给人们的工作和生活都带来了许多方便,诸如视频会
随着移动通信与计算机技术的发展,移动智能设备被广泛应用在人们日常生活中,大量的信息被存储在这些设备上,同时由于经常性的交互,这些信息通常存在着多个副本。为了在人们之
虚拟企业是适应市场需求的有效组织模式,它融制造技术、现代信息技术和管理技术于一身,是未来企业合作的理想组织形式。起源于办公自动化领域的工作流技术可以对虚拟企业起到
本文主要对信息抽取中的命名实体识别和模板自动获取两个技术进行了研究,并提出了一套有效的解决方案.在命名实体识别方面本文重点研究了中文人名的识别和机构名的识别.本文
文章首先介绍了PBNM(policy_based network management)的思想及其在园区网络管理中实施的意义,给出了课题的设计目标和任务;然后,对系统进行了总体分析,针对用户的需求和现有的
随着我国国家信息化工程的建设发展,各行各业都建立了各自的信息处理系统,但是,目前企事业等单位现有的软件往往由不同的部门开发,软件之间相互独立,自成系统,数据标准不一致
随着经济的发展及科学技术的进步,各行各业面临的是一个日益复杂和不断变化的环境,决策问题变得越来越复杂,特别是对于面向多层次、多目标的复杂系统决策问题,因涉及到多种专业知
随着Internet技术的发展,计算模式不断更新,信息系统基本架构也从C/S架构逐渐发展为当今主流的B/S架构。各种设计模式的提出与使用对信息系统的开发产生了越来越大影响,模式采用