融合语言模型的端到端语音识别算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wtbcgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术的快速发展,越来越多的语音交互产品和服务开始走进我们的生活,以更智能化的方式服务于千家万户。语音识别作为实现和改善智能人机交互的重要技术之一,在过去的几十年里一直都是研究热点。在深度学习兴起之前,混合高斯模型和隐马尔可夫模型一直作为非常有效的声学模型而被广泛使用,但是这种传统的语音识别系统由多个模块共同组成,在操作繁琐的同时也不便于整个模型的统一优化。在如今的大数据时代,这些传统的语音识别技术已经不足以支撑更加高效的语音识别系统和智能交互的需求,随着深度学习的发展,基于深度神经网络的端到端模型逐渐成为一种新的研究趋势。端到端技术将整个语音识别系统简化为一个单一的网络体系结构,以音频文件作为输入,并以文本标签作为输出,大大简化了语音识别系统的构建,同时也减少了传统模型组件间信息传递的损失,提高了模型的整体识别性能,逐渐成为语音识别领域的研究热点。本文对当前两种主流的端到端语音识别模型进行了分析,并针对其缺陷提出了融合语言模型的改进方法,论文的主要工作包括以下几点:(1)针对传统语音识别模型的不足,本文设计和实现了一个基于深度神经网络的端到端语音识别模型DCNN-BGRU-CTC,在模型设计上借鉴了在图像识别领域效果较好的VGGNet网络结构,采用二维卷积直接对语音频谱图进行特征提取,在一定程度上缓解了传统声学特征提取方法中过分依赖经验设计而造成特征信息部分丢失的情况。采用多个连续的小卷积核来代替较大的卷积核,在减少模型参数的同时也增加了CNN的表达能力,有利于提取更丰富、更具辨别能力的特征。最后在开源语音数据集上进行实验,并验证了模型的有效性。(2)针对汉字作为声学建模单元在端到端模型训练过程中收敛缓慢以及模型缺少语言建模能力的问题,本文提出在减小声学建模单元采用带音调的音节进行建模的同时增加了基于Transformer改进的语言模型进行联合解码,实验结果证明上述改进在单方面提高了声学模型和语言模型的识别效果。(3)为了改善语言模型无法融入声学模型的训练过程以及不能有效地整合语言模型进行联合优化的难点问题,本文提出了一种新的融合语言模型的端到端语音识别算法,使得语言模型能参与到声学模型的训练和测试阶段,该算法在一定程度上纠正了基于CTC语音识别系统产生的错误,将CTC的输出做某种矩阵运算之后作为输入再对语言模型进行训练,真正意义上实现了端到端。(4)为了简化后续处理工作以及便于他人使用,将本文提出的融合语言模型的端到端语音识别算法进行了流程化实现,构建了基于Django框架的Web站点,该网站能够完成语音文件的离线和在线识别,同时也检验了本文所提算法的实用性。
其他文献
单侧空间忽略症(unilateral spatial neglect,USN)是脑损伤造成的损伤半球对侧空间未知或有意义的刺激不能反应或定向。本文回顾性分析20例脑卒中后USN患者采用肌电生物反馈疗
“粮改饲”政策实施后,以畜牧养殖带动青贮玉米种植的方式推进了粮改饲示范区域种养结构的调整,在农业改革调整种植结构和绿色健康发展的背景下,提高“青贮玉米+养殖”种养结
通过工作实践,对各种地基的几种常见施工方法提出了其加固机理、适宜性、优缺点以及工程造价,为科学合理的选择施工方法提供参考。
为检验对接机构性能,研究对接过程动力学,根据我国对空间对接任务的要求,设计了全物理仿真试验台.建立了对接仿真试验台对接过程捕获阶段的对接动力学数学模型,通过仿真分析,
目的比较专利中药抗柯萨奇B病毒性心肌炎胶囊复方药材不同提取方式对慢性心肌损伤治疗作用的不同。方法醇提物、水提物制备复方药材;分别分为高(H)、中(M)、低(I)三个不同剂量组。
提出了一种计算钢结构梁柱半刚性端板连接转动变形的方法,通过与试验结果比较得到验证,该方法不但能够很好地计算端板连接的整体转动变形特性,包括初始转动刚度和弯矩-转角(M-
近年来,随着中蒙两国经贸关系的快速发展,中国已成为蒙古国第一大投资国和第一大贸易伙伴。人民币已成为蒙古国成交量最多的外币之一。本文针对口岸贸易的特点对人民币跨境交易