多源信息增强的端到端神经机器翻译

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:txl8909
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器翻译技术的快速发展为不同国家人民之间的交流带来了极大的便利。机器翻译指将一种模态的语言表示转化为另一种语言表示,常见的机器翻译技术将源语言的文本或者语音信号翻译成目标语言的文本。但是,由于语言的多样性和语义表达的歧义现象,仅仅依靠单源信息作为输入的神经机器翻译模型常常发生错误翻译。随着多模态学习和相关交叉领域的发展,不仅文本可以和图像信息或者词性信息等知识相结合,不同模态之间的信息互补也成为可能。因此,本文的研究围绕基于多源信息增强的端到端神经机器翻译,使得多源信息能更好地融入到机器翻译模型中。首先,本文指出了传统的机器翻译模型中存在的语义理解的困难,基于标准编码器-解码器框架的神经机器翻译系统对源语句进行编码以生成目标语句,其中编码器同等对待所有单词。直觉上,包含描述性信息的实词应该被认为比虚词更重要。为了专注于实词并帮助神经机器翻译模型理解关键语义信息,本文利用词性标签信息,在编码端提取源句子的实词形成其浓缩句,并设计了一个词性辅助理解的神经机器翻译模型。在主流的数据集上的实验结果表明,本文所提出的方法能显著提高翻译质量。其次,本文指出了基于子词预处理方法的机器翻译模型中存在的文本生成的困难,并定义了一种名为“半对半错”的错误翻译类型,直观表现为译文单词中少数字符出现错误翻译的现象。为了解决这个问题,本文在解码端引入词性标签信息,用来加强同一个单词中不同子词的联系。在主流的数据集上的实验结果表明,在上文提出的模型的基础上,本文所提出的方法进一步提高了翻译质量。最后,本文也将多源信息引入到语音翻译模型中,针对语音信息作为输入的端到端语音翻译系统,增加对应的视频信息,这种方法适用于视频字幕生成。在多模态数据集上的实验结果表明,本文所提出的方法有效提高了语音翻译的质量。综上,本文所提出的多源信息增强的端到端神经机器翻译模型能在文本翻译和语音翻译上都能有效提升译文质量。
其他文献
利用自动化项目生成技术来产生项目是应对计算机自适应测验背景下题库建设需求的有效方式之一。项目生成的关键是要得到从项目刺激特征预测心理测量学指标的项目生成算法。在前人研究的基础上,本研究将元素属性变化和干扰项的设计特征纳入到矩阵推理测验的项目生成算法中,并以此为基础编制了 40个矩阵推理项目来系统地考察规则、元素属性变化和干扰项的设计特征对项目难度的影响。对项目生成算法的进一步优化将在算法方面给自动
随着中考的改革,英语教学的方式和核心也在发生转变。上海的初三学生在毕业时,需要掌握和综合运用至少1600个英语单词以及固定搭配。此外,学生还需要了解单词的一词多义现象和掌握其在特定语境中的意义。因此,初中英语词汇教学要将重点放在教授学生掌握核心词汇的含义和用法,并灵活地结合语境对目标词汇进行恰当的运用。然而,当前的词汇教学多数依旧采用传统的一言堂模式,即教师上课讲授,学生机械操练记忆。传统的词汇教
机器阅读理解是衡量机器对人类语言理解程度的重要手段,也是实现人工智能的关键一步。近年来,机器阅读理解已经在搜索引擎和智能对话中有了很好的应用。多轮机器阅读理解是机器阅读理解和多轮对话的交叉,机器需要阅读文档回答多个相关联的问题。这种形式更符合人类获取信息的一般方式,因此近年来多轮机器阅读理解受到学术界和工业界的广泛青睐。Qu AC数据集是经典且具有很大挑战的多轮机器阅读数据集,目前机器在这个数据集
在大数据和深度学习发展的推动下,文本图像识别对人们的日常生活产生了重要的影响。本文围绕文本图像识别任务,在基于编码器-解码器的文本图像识别模型的基础上进行研究并加以改进。具体来说,在编码阶段分别采用基于注意力机制的特征提取模型和基于时序卷积的模型来完成视觉特征的提取和特征序列的建模;采用基于多层次特征的聚合机制来聚合不同层次的信息;解码阶段利用启发式局部注意力机制完成字符序列的解码。首先,文本图像
学位
学位
2018年初《普通高中生物学课程标准(2017年版)》正式公布,新一轮的基础教育课程改革在借鉴国外成功经验的基础上,研制了我国高中生物学课程设计的宗旨——生物学学科核心素养。这样的教育目标体现了国家意志和社会发展对生物学科培育人才的价值需求,也是学生在学习生物学的过程中需要逐步形成的生物学观点、思维方式和解决人类生活问题的技能。如何在将核心素养渗透到课堂教学中,实现新课标的要求和学科的育人价值,是
近年来,闪存存储设备凭借其高性能和低功耗等诸多优势,被广泛应用于个人电脑、服务器、数据中心、移动设备中,是一种非常有前景的存储设备。然而,闪存存储设备拆解和开发难度大、成本高,想要通过真实设备进行学习和研究都非常困难。仿真是一种经济便捷的替代方式,目前学术界已经有多款功能强大的闪存存储设备仿真软件。然而这些仿真软件都是为专业人员设计的,主要用于研究,软件的使用需要建立在熟悉闪存存储设备的基础上,学
环境感知是工程车辆智能化的基础,检测路面的障碍并进行尺寸估计有助于规避潜在的危险,降低事故的风险。基于激光雷达的三维目标检测技术已日渐成熟,然而激光雷达昂贵的价格限制了相关技术在实际工业生产、生活中的落地。针对此问题,论文提出使用常见的单目摄像机替代昂贵的激光雷达。首先通过构建自监督的单目深度估计模型预测深度图,然后将其转换为伪点云,最后基于伪点云实现道路障碍的检测与尺寸估计。针对深度估计和伪点云
伴随着互联网的快速发展,非结构化的文本数据快速增长,如何高效精准地定位关键词,成为了我们探索的一个重要科研方向。作为信息抽取的主要研究方向,关系抽取正在知识图谱、网页搜索等方面发挥着巨大的作用。得益于启发式的远程监督方法,远程监督关系抽取可以在无需人工帮助的情况下自动识别实体对关系。随着机器学习和深度学习的快速发展,关系抽取利用卷积神经网络提高了预测的准确率。尽管如此,现有的模型依然存在以下问题: