论文部分内容阅读
铁路安全运营对促进经济增长、增进民生福祉、强化国防安全有重要意义。铁路调度是铁路运营的“中枢神经”,而车务调度人员与列车司机、电务、工务等铁路运营生产单位之间的调度通话作业是铁路运营组织过程中的核心组成部分。以往的语音识别研究主要聚焦通用语、日常用语的识别,面向铁路领域的应用研究侧重于引导购票、客运服务等非安全语音内容的识别。但是针对直接影响行车安全和效率的铁路调度语音识别研究很少论及。本文以铁路调度语音为研究对象,在铁路车务虚拟仿真实验平台的培训考核过程中的铁路调度用语语音识别展开深入研究。本文丰富了语音识别在铁路领域的应用研究,为车务人员的培训和考核提供更全面的评价指标,具有一定的现实意义和实用价值。首先,结合现有语音识别技术的工作原理,对铁路调度语音识别的类型、系统框架作了进一步界定与设计。针对语音信号在发声、传递、采集等过程中掺杂环境噪声及冗余信息等问题,利用预处理及特征提取方法对原始语音信号进行处理和分析,将得到的FBank特征和MFCC特征用于铁路调度语音识别系统的输入,为铁路调度声学模型的搭建奠定基础。为了模拟一线车务工作人员间的通话内容,依据车机联控用语标准库,构建以铁路调度通话数据集为主的联合语音数据集。根据铁路调度用语的应用环境,对不同语言模型进行适用性分析和选取。为了解决铁路调度语音在发音、语调上的特殊性和调度用语中词语重要程度不一的问题,对词典标注提出相应的解决方案。其次,为了提升铁路调度语音识别的准确率,搭建合适的声学模型。分别采用高斯混合模型(GMM)和深度神经网络(DNN)构建基于隐马尔可夫模型(HMM)的铁路调度声学模型,以GMM/DNN拟合观测概率分布且将HMM的其他概率参数为训练对象。采用双向长短时记忆神经网络(BiLSTM)并结合链接时序分类(CTC)构建基于循环神经网络的铁路调度声学模型,以链接时序分类CTC为损失函数训练多层BiLSTM。针对以上三个模型完成对比试验,通过词错误率比较,证明基于BiLSTM-CTC的声学模型在铁路调度语音识别领域有突出优势。最后,为了解决铁路车务虚拟仿真实验平台的“调度语音-操作”一致性检查要求,以铁路调度语音识别结果为输入进行识别文本后处理。针对铁路调度用语的关键词特征和位置特征,提出相应的铁路调度语义解决方案,在一定程度上避免实验平台对识别结果的误判,提高实验平台的智能化水平。