论文部分内容阅读
语音翻译技术是促进人类社会交流、推动人类文明进步的重要助推器。随着语音处理和机器翻译等理论及技术的扎实推进,以及计算机科学不断深化发展带来算力和存储能力的进一步提升,英法、英汉等受用人群广泛的语音翻译系统相继达到商用化程度。但语音翻译系统的研制囿于语料资源限制,双语语言研究匮乏等因素,语音翻译在部分语言上的实验和应用仍处于起步阶段。除此之外,现有研究多采用以级联式语音翻译系统为基础,对其中的重点问题各个击破的方法,较少采用不借助中间文本表示的直接语音翻译方法,带来研究内容繁琐、翻译模型庞杂、翻译时延较长等问题。虽然俄语和汉语作为世界使用人数排名第一和第六的语言,语音翻译应用前景广阔,但俄汉语音翻译起步较晚,双语对齐的语音语料资源建设不够完善,目前尚处于实验阶段。在此研究背景下,本研究以俄汉军事语音翻译需求为牵引,在分析对比现有语音翻译技术基础上,针对俄语和汉语语音发音特点及差异,采用端到端的语音翻译模型构建方法,设计并实现俄汉军事语言翻译系统。本文主要工作以及取得的研究成果如下:(1)根据俄语和汉语语音发音特点及差异性特征,结合语谱图和梅尔倒谱频率系数进行语音特征表示的优缺点,采用Mel谱图作为语音翻译系统的输入输出。Mel谱图与语谱图相比能在占用更少存储空间的基础上更清晰地表达语音频率特性。(2)Mel谱图输出后通过逆梅尔滤波器组,经过改进的Griffin-Lim算法拟合语音信号相位,最后通过去加重提升信噪比,实现从Mel谱图到语音波形的转化。实验证明该改进的声码器设计具有更好的收敛速度。(3)结合俄汉语音发音特点和双向长短时记忆网络特性,提出LSTM-BLSTM的模型架构。将俄语Mel谱图作为输入,编码成固定维度向量,解码为Mel谱图输出,实现语音翻译过程。并通过改进注意力机制和损失函数选择,优化了LSTM-BLSTM模型的翻译效果。(4)采集49小时军事领域俄汉双语语音语料,设计构建俄汉语音双语平行语料库。以Sequence-to-Sequence模型为基础设计并实现俄汉军事语音翻译原型系统,设计交互式界面。在语料库和原型系统设计完成基础上,对俄汉语音翻译效果进行实验。实验结果表明,虽然该系统翻译准确度较传统的级联式语音翻译系统仍有不足,但该模型具有翻译速度更快、翻译语音质量良好、短句翻译效果较好等优点。