基于自注意力机制的机器翻译模型研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:reg8c4user
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是知识和信息传播的重要载体,随着互联网、社会信息化和经济全球化的飞速发展,克服语言障碍变得越来越重要。因此,机器翻译(Machine Translation,MT)对于打破不同国家、地区和民族之间的语言障碍,促进不同民族人民之间的交流以及减轻人们学习外语的压力具有十分重要的现实意义。本文先简单介绍了传统的统计机器翻译(Statistical Machine Translation,SMT)和神经机器翻译(Neural Machine Translation,NMT),并就这些机器翻译模型的优缺点进行了分析。然后在此基础上引入并详细介绍了基于自注意力机制(Self-Attention Mechanism)和多头自注意力机制(Multi-Heads Self-Attention Mechanism)的神经机器翻译模型Transformer,通过具体的实验对其进行详细的分析发现了该机制存在的一些不足,并且针对这些不足,提出了相应的改进方案,具体内容如下:首先,通过对自注意力机制以及Transformer模型进行详细的理论分析和实验分析,发现其存在两个问题:其一是在Transformer模型中,多头自注意力网络中的注意力头是彼此独立地进行特征学习,这一定程度上会造成模型性能的瓶颈;其二是自注意力机制同时关注所有信号这一操作分散了注意力分布,使得模型无法很好地捕捉到局部信息。然后,针对上述第一个问题,本文提出了一种交互式多头自注意力网络,其通过一个线性投影连接了网络中的所有注意力头,使其能够分享学习到的信息,从而使得整个Transformer模型能更充分地进行特征学习,进而使得Transformer模型能够打破其性能瓶颈。针对第二个问题,本文提出了一种可学习的高斯偏差作为局部编码,并将其加入到原始的自注意力网络(Self-attention Networks,SANs)中,使改进的SANs能够有效地关注到局部信息。最后,针对上述两种改进方案,本文通过具体的实验验证了它们的有效性(以BLEU值为衡量标准)。并在验证第二种方案的过程中,发现局部编码虽然能够改善模型的性能,但其在一定程度上无法很好地融入到自注意力网络中。为此本文又提出了一种门控局部编码,通过门控机制让局部编码更好地融入自注意力网络中,并通过具体的实验验证了该方案的有效性。
其他文献
思维活动离不开转换。解决数学问题的过程就是一种转换过程,恰当的转换不仅能顺利解决数学问题,而且能培养学生的科学的思维习惯。本文结合教学体会谈对数学问题中的“转化”
目的:探讨为手术后的颅脑损伤患者采取不同的头位卧床对其颅内压和脑氧饱和度的影响。方法 :选择2015年4月至2016年3月期间在南宁市第二人民医院进行手术治疗的60例颅脑损伤患
扼守“实践出真知”,连续举办了两届的中国电子商务大赛,为这个行业吸引来了越来越多关注的目光
为评估航空反潜网络化体系信息域对作战效果的影响,首先分析了网络化体系信息域的信息质量转换过程,提出了完整性、准确性和时效性3个信息质量指标;然后分别对网络化体系信息
运用煤岩学方法,研究了伊宁煤田Ya-8煤的成煤环境及其煤相。该煤层主要形成上,下三角洲平原地带,划分出国种煤相,用煤岩特征来划分煤相是成煤环境研究的有效手段。
海上战机稍纵即逝,指挥决策时间的长短往往可以决定小到1艘舰艇大到1支舰队的命运。在抗击来袭的空中目标问题上,已有的火力分配模型都存在一定的局限性,不能更好满足舰艇编
生态危机的爆发给人类的生存带来了挑战,反思和重建人类与自然的关系比以往任何时候都更加紧迫。在马克思恩格斯宏大的理论体系中散落着丰富的解决人与自然和人与人正义关系
纵观新时期散文诗坛的几次大的腾跃,越来越多的诗人,具有强烈的文体意识、创新意识和探索意识,他们一直拒绝平庸,张扬个性,孜孜不倦地追求着散文诗艺术拓展的可能性,对提高散文诗质
期刊
<正>南海北部边缘盆地处在欧亚板块、印度-澳大利亚板块及太平洋板块等三大板块交汇处之特殊大地构造位置,亦是古特提斯构造域与古太平洋构造域的混合叠置区,故区域地质背景
会议
介绍用分光光度法测定含铬量较高的废水.在酸性条件下,铬与二苯碳酰二肼生成紫红色的配合物,最大吸收波长的540nm.该方法具有简便、快速、应用范围广等特点.