基于端到端神经网络的蒙汉机器翻译的研究

来源 :内蒙古工业大学 | 被引量 : 8次 | 上传用户:LZLZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理和机器翻译技术的发展,利用人工智能技术来提高不同语言间的翻译效率和准确率逐渐成为了研究热点。其中,端到端(End to End,E2E)神经网络模型结构的神经机器翻译方法由于翻译准确率高、译文语义性强等优点逐渐成为研究的重点,但依然存在词汇受限、译文忠实度低等问题。为了解决端到端神经机器翻译中存在的上述问题,本文围绕机器翻译预处理过程中的分词和语料标注问题进行研究,缓解语料词汇受限问题。同时为提高译文质量,对端到端模型的构建过程展开研究。本文在端到端机器翻译模型的预处理阶段对于语料的分词算法进行研究,给出一种基于隐马尔可夫模型(Hidden Markov Model,HMM)的分词模型进行序列的分词标注。同时使用判别式方式和条件随机场(Conditional Random Field,CRF)模型来对蒙古语进行词干词缀的切分和标注。在语料的表示上,以低维的分布式表示方法来处理蒙汉双语语料中的词语向量化问题,以此来适应端到端模型的输入和输出。针对蒙汉机器翻译中译文忠实度问题,结合主流的神经机器翻译端到端框架构建一种基于卷积神经网络(Convolution Neural Network,CNN)和门控循环单元神经网络(Gated Recurrent Unit,GRU)相结合的编码解码模型。卷积神经网络构建编码器利用卷积层层叠特性和并行计算的方式获取源语言句子长时信息,以向量方式进行语义的表达并实现模型的编码,同时加快编码速度和质量。根据编码器的编码状态,利用门控循环单元神经网络对汉语进行目标语言解码,在进行双语词对齐处理过程中结合一种全局注意力模型来获取双语的词对齐信息,根据门控循环神经网络模型进行目标语词语的预测和输出,经过编码和解码过程,实现形成从源语言到目标语言的映射。最后,本文对基于端到端的蒙汉机器翻译系统进行模型的翻译实验并对实验结果进行对比分析,利用BLEU值评测指标对模型中译文的质量进行评测。实验结果显示,基于端到端的蒙汉神经机器翻译模型在译文质量、语义困惑度方面相比较传统的统计方法和基于循环神经网络的机器翻译基准模型得到了提高。
其他文献
服务行业越来越重视将“情绪价值”融于到服务中,而““情绪价值”的有效实现依赖于一线服务员工适当情绪的表达以及与顾客之间良好的互动。同时在组织行为学领域,学者们也开
针对矢量控制永磁同步电机电流环在动态调节过程中的相互耦合问题,提出一种基于滑模观测器的复矢量电流环解耦控制策略。在传统滑模观测器的基础上,引进Sigmoid作为切换函数
随着国内城镇化进程加速,城市市政基础设施投入力度持续加大,这也导致市政基础设施运维单位管理落后,跟不上建设速度,信息化程度也比较低。而市场上已经出现的GIS(地理信息系
由于沼气吸渣车车型小,没有倾卸机构,只能通过真空泵向储液罐输入压力将沼液、沼渣排出,因此部分沉淀物堆积在储液罐底部无法排出。现在沼气吸渣车上加装污水泵等装置,在排渣
本文立足新时代、新常态宏观背景,将金融体制改革作为研究对象,从虚拟经济的视角分析讨论金融体制深化改革。首先探讨了虚拟经济的研究范畴与基本特征,然后针对虚实经济协调
<正>刑事诉讼法(以下简称"刑诉法")所保护的利益可以分为三个层次。一是国家社会利益,专指宪法确认的国家基本政治经济制度、国家安全与统一,以及社会公共安全;二是某一方面
在校大学生是烈士纪念设施的重要受众群体之一。笔者以问卷调查的形式对位于南昌市区的在校大学生进行了一次调查,重点了解他们对江西重大革命历史事件、著名烈士、烈士纪念
目的分析125I粒子治疗前列腺癌医护人员的受照剂量和剂量率。方法采用热释光剂量计检测125I植入术前、植入术中、植入术后医护人员的受照剂量,并计算出剂量率。结果植入术前
随着时代的不断发展,新媒体悄然而至,并逐渐成为当前最为火热的名词。在新媒体时代新闻行业发生了翻天覆地的变化,新闻记者需要遵循新媒体的基本特征,提高新闻敏感性,提升自
为解决传统图解法在双向绿波控制设计中绿波带带宽窄、反复调整以及求解相位差误差较大的问题,提出一种基于绿波带中心线交点的双向绿波控制图解法。首先,分析交叉口的不同放