融合句法短语和命名实体的汉英机器翻译研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wangpengdz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短语在机器翻译的快速发展过程中起到了至关重要的作用,而符合语法结构的高质量双语句法短语对既能够准确表达源语言的信息,又能够使翻译生成的目标语言更加流畅,在语法上符合语言表达习惯。论文围绕句法短语及命名实体短语在汉英机器翻译中的应用展开深入研究,主要包括三个方面:针对基于短语的统计机器翻译结果中存在不符合句法结构表达的问题,提出了一种利用双语句法短语对改善统计翻译模型的方法。在统计机器翻译中,短语定义为连续的词串,并以限定词串最大长度的方式控制短语总量,因此在短语翻译表中存在大量不符合句法结构的表达,并且所有的短语在解码过程中依赖语料库中的各项统计指标来评分,导致模型最终的输出存在语法错误或结构不完整等问题。为此,本文在分析短语模型与句法模型的优缺点基础上,将语料库中获取的双语句法短语对分别使用扩充训练语料和增加句法短语特征两种方式与统计翻译模型融合。在融合过程中,使用不同规模的训练语料进行实验,以验证方法的有效性。针对神经机器翻译中利用先验知识方面存在困难的问题,提出在不使用外部资源的情况下将双语句法短语对融合到神经机器翻译模型的方法。在神经机器翻译中,典型的翻译模式是从序列到序列的逐词生成模式。虽然神经网络能够提供强大的学习能力,并且在此模式下取得了明显超越统计机器翻译的效果,但是对于自然语言中的很多特殊表达,比如某些固定搭配短语和由高频字组成的低频短语在翻译过程中难以作为最优结果整体输出,而使用短语作为翻译单位能够帮助翻译模型避免这类错误。本文提出对源语言和目标语言两端同时增加句法短语标记编码的方法进行训练,使翻译模型更倾向于生成符合句法边界的短语,在中英文大规模语料上的实验结果表明,该方法能够有效改进翻译质量。针对生物医学领域的机器翻译中训练语料不足,并且语料中存在大量命名实体而导致翻译质量不高的问题,提出了生物医学命名实体的识别方法及其与生物医学机器翻译的融合方法。在生物医学领域平行语料相对稀缺的情况下,为提高其机器翻译的性能,论文从两个方面开展研究:一是围绕生物医学领域文本的命名实体识别展开研究,二是研究使用变量的替换翻译和扩展训练语料等方法将生物医学命名实体与机器翻译模型相融合。首先在生物医学命名实体识别中,提出加入词表示特征和扩展的RNN方法,然后使用可移植和识别结果较好的BLSTM-CRF模型的识别结果将生物医学命名实体与统计机器翻译和神经机器翻译方法相融合,以提高生物医学领域文本的翻译质量。综上,针对句法短语与汉英机器翻译中的融合问题,在不使用外部资源的情况下挖掘训练语料内部信息,分别将句法短语与统计机器翻译模型和神经网络机器翻译模型相融合。对于双语训练语料相对稀缺的生物医学专业领域文本翻译,重点研究了命名实体在汉英翻译过程中的重要作用,分别从生物医学命名实体识别、生物医学命名实体与统计机器翻译和神经机器翻译的融合两方面进行研究,最终达到改善机器翻译质量的目标。
其他文献
粘性摩擦阻力是运载工具的重要阻力来源之一,降低摩阻具有非常重要的意义。壁面切应力分布决定了摩阻的大小,它的测量一直是实验流体力学研究的一个难点。现有的技术难以形成稳定、抗干扰能力强、易于运载工具使用的测量工具。针对现有测量方法的局限性,本文提出了一种基于双层“三明治”热膜传感器的免标定壁面切应力测量方法。该方法使用两个相同大小的金属镍膜形成双层热膜结构。通过开尔文恒温电桥精确设定两个金属膜在相同的
学位
随着健康医疗智能化时代的到来,可穿戴式传感器等智能终端逐步普及,对光学传感技术提出了更高的要求,如何在实时无创的基础上提高传感器灵敏度、实现光学器件高度集成成为光学传感领域面临的首要问题。近年来,研究者针对以上问题开展了一系列研究。为了提高灵敏度,研究者基于超材料、二维材料等结合多种光学原理发展了多种光学生物传感器,但灵敏度仍未能满足需求;为了提高集成能力,研究者致力于设计可调谐光学生物传感器和正
学位
随着现代科学技术的发展,柔性电子器件朝着高性能、多功能化等方向发展,被广泛的应用在机器人、可穿戴电子设备和人机交互等领域,为人类生活的多个方面带来了巨大变化。常规柔性电子器件通过采用导电有机分子/聚合物材料和无机金属材料的微结构设计实现。随着相关研究不断深入,常规柔性电子器件的性能等已有很大的提升,但几个关键问题仍需解决:(1)通过对基础材料的研究进一步增强柔性器件的功能特性;(2)解决柔性电子器
学位
与传统柔性拖缆内窥镜相比,无线胶囊内窥镜检查安全、舒适、无创伤,在胃肠道疾病的诊断方面优势明显。然而,现有胶囊内窥镜缺乏主动行走和姿态控制功能,仅能依靠胃肠道蠕动或重力被动运动,其诊断效果在小肠内较好,但在胃、结肠等三维宽裕环境则存在漏检率较高的问题。此外,被动式胶囊也无法实现未来的药物输送、活检和微创手术等扩展功能。因此,通过姿态的主动控制将胶囊内窥镜的诊疗范围扩展到胃、结肠等三维宽裕环境已成当
学位
含有氮杂季碳中心的吡唑啉酮和羟吲哚骨架是许多药物先导化合物与活性天然产物的结构特征,这两类药效团杂环结构的多样化衍生因而具有重要的合成价值和药物开发潜力。近年来,利用有机不对称催化策略,一系列结构新颖、具有潜在生物活性的氮杂季碳中心吡唑啉酮和羟吲哚衍生物被相继报道。然而,就目标产物的结构多样性和合成方法的有效性而言,发展高效不对称构筑立体化学结构复杂的氮杂季碳中心吡唑啉酮和羟吲哚化合物的方法仍然是
学位
生物医学文本是目前重要的生物医学领域研究资源。随着生物医学技术不断发展,使记载重要生物医学记录的生物医学文献和电子病历呈爆发式的增长。同时,信息化技术的发展为进一步从大量的生物医学文本中挖掘出新知识带来机会。结合领域需求,采用生物医学文本挖掘技术精准地获取必要信息。生物医学文本挖掘涉及多阶段研究方法,每个阶段的研究技术都会对知识挖掘产生影响。为此,本文围绕生物医学文本进行研究,以生物医学文本表示和
学位
汉语词法分析作为机器翻译、信息检索和自动问答等下游自然语言处理的预处理环节,是一项基础的任务。随着数据的爆炸式增长和深度学习的发展,如何更好地从大规模文本中提取词粒度信息,进而为其他高层任务提供可靠的词级别信息与特征,具有重要的理论意义和实际应用价值。现有的词法分析方法难以在一定参数量的模型内完成多种切分粒度和词性规则的词法分析工作,并且没有考虑多粒度的信息和实际应用时的效率要求。本文针对现实世界
学位
运河古镇作为大运河申遗的重要组成部分,承载着运河居民的生活、生产和文化记忆。而快速的城镇一体化进程和运河航运功能的衰落导致运河古镇原有的生产、生活方式发生了属性上的改变,运河古镇也随之衰败。如何在新的历史时期对运河古镇的保护和更新模式进行创新性研究,成为运河古镇实现当代承接性和可持续发展的重要课题。本论文选取浙东运河古镇作为研究对象,通过运河古镇历史成因、发展规律和成长机制的分析,从多尺度空间层级
学位
在当前人工智能时代,智能系统在各领域得到了广泛的应用,知识的表示和推理在智能系统中是不可或缺的一环。作为一种知识表示和推理方法,模糊认知图已广泛应用于复杂系统的建模、决策、时间序列预测等。模糊认知图的有效、快速和鲁棒的学习,是其应用的关键因素。当前主要采用群体智能优化的方法,同时以数据为驱动进行模糊认知图的学习。然而,这些学习方法存在着耗时较长、效率低下,对噪声数据敏感、鲁棒性低,权重分布不合理的
学位
显著目标检测任务旨在对视觉场景中的显著区域进行准确的定位并生成高质量的分割结果。该任务作为计算机视觉领域中的一项基础问题,在医学影像分析、伪装物体检测、图像编辑、视频监控以及自动驾驶等领域有着广泛的应用。传统的显著目标检测算法使用低层手工设计特征,通过构建自底向上或自顶向下的方法来生成显著目标检测结果。这种方法在实际应用场景中的泛化能力和鲁棒性较差。近年来,随着大数据、机器学习理论和计算机算力的不
学位