基于卷积神经网络的端到端语音识别研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:tsao8883
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习理论的快速发展,很多技术被成功应用于语音识别领域。卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习的一项关键技术,在语音识别系统的构建中取得了良好表现,其局部连接和权值共享特性能够在一定程度上抵抗语音信号在时频域的偏移和畸变。此外,采用神经网络完成一体化建模的端到端语音识别方法,解决了传统混合模型存在的流程繁琐、非一致性优化等问题,进一步提高了卷积神经网络在语音识别中的应用潜力。但是,将卷积神经网络与端到端机制结合时,存在以往输入特征不满足实际需求、传统CNN处理方式会导致语音信号在时域和频域独立信息的弱化等问题。本文以提升基于CNN的端到端语音识别性能为目标,围绕声学模型的输入特征和前端处理网络进行研究,完成了以下工作:(1)对CNN端到端声学模型的结构进行了研究,重点研究了采用连结时序分类(Connectionist Temporal Classification,CTC)框架实现的端到端声学模型。以CNN作为输入端网络,将传统声学特征FBank组织成为了适用于CNN输入的形式,并针对FBank特征高度压缩的特性,设计了基于浅层池化、中层池化和深层池化的CNN模型。实验结果表明,深层池化模型效果最好,误识率达到了28.14%,比浅层池化方式相对下降4.83%。(2)对CNN端到端声学模型的输入特征进行了研究,由于传统特征过分依赖先验知识,在提取的过程中会造成频域信息的损失,不能充分发挥端到端系统中CNN的特征提取能力,本文引入了语谱图(Spectrogram)这种几乎包含了语音信号频域中所有信息的特征,并将其分别应用于搭建好的三种网络模型中。实验结果表明,Spectrogram特征在中层池化模型上的效果最好,误率达到了27.52%,比FBank特征的最优结果相对下降2.20%。(3)对CNN处理语音特征图的方式进行了研究,由于传统CNN的处理方式会导致语音信号在时域和频域中独立信息的弱化,本文提出一种时频域分阶段处理的方案,既保留各个语音帧的一维特性,又兼顾帧间的上下文信息。该方案由CNN的一维模型实现,并且按照处理顺序分为了时域-频域处理方式和频域-时域处理方式。实验结果表明,采用频域-时域处理方式更合适,误识率达到了25.92%,比使用传统CNN处理方式的最优结果相对下降5.77%。
其他文献
学位
铁路作为我国输送旅客和货物的主要途径之一,组成系统异常复杂,任何细小部件的微小损伤都有可能对铁路的安全运行造成极大的影响。现有的铁路故障检测系统采用人机结合的方式审核排查可能存在的安全隐患。一方面,庞大的数据给技术人员带来极大的工作负荷,产生的视觉疲劳直接导致误判错判。另一方面,人工排查的延时性,不能确保数据处理的及时性。随着人工智能技术的发展成熟,深度学习将充分利用采集到的列车数据,实现列车图像
学位
学位
混凝土的基本力学性能包括抗压强度、抗拉强度、抗剪强度,然而抗剪强度迄今没有标准试验方法,在以往的研究中不同试验方法得到的抗剪强度取值差异很大,并且由分析可知剪力存在的区域往往还伴随着弯矩,即很难设计一种完美的纯剪切抗剪试验方法,但可通过力学理论结合有限元数值分析的方式推测抗剪强度。经典连续介质理论由于做了较多的简化,因此具有一定的局限性,其计算结果无法很好地拟合试验结果,从而无法从理论层面得到较为
学位
在新时代交通强国战略引领下,中国大力发展高速铁路基础设施,高速铁路网络不断扩张至更多省市。铁路运营公司要在越发庞大的高速铁路网络内安全且高效地完成运营计划,保证宏观范围内列车准点率,是一项艰巨但必要的任务。高速铁路网络建设在自然环境中,列车运行将不可避免地受到自然灾害等突发事件的影响。研究高速列车调度问题旨在通过合理调整突发事件下列车运行计划,改善列车准点率。同时中国提倡建设节能减排的公共交通体系
以生理学“血型与输血原则”的教学为例,在多专业医学本科生中探索适合生理学混合式教学模式的形成性评价方式,为开展形成性评价提供参考。
学位
学位