基于深度学习的翻译规则和译文质量评价研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:cats2106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语翻译规则作为统计机器翻译模型的核心,包含从源语言短语到目标语言短语的短语表和表中互为翻译的短语的概率分数。在统计机器翻译模型中,双语翻译规则信息用于在译文生成阶段将源语言短语序列转换成目标语言短语序列,为后续译文调序提供输入。此外,双语翻译规则信息还可以作为神经网络机器翻译模型的外部指导资源,为这类模型的译文选择阶段提供短语级别的相关信息。因此,在当前深度学习快速发展和广泛应用的背景下,基于其对双语翻译规则信息进行进一步研究将有助于推动机器翻译领域的进一步发展。同时,无论是统计机器翻译模型还是神经网络机器翻译模型,其译文中均长期存在着过翻译问题和欠翻译问题,二者频繁出现且严重影响译文质量,但目前机器翻译领域中通用的BLEU等自动评价指标,无法对这两种问题进行针对性评估,也就无法为试图解决这一问题的研究者们提供明确指导。综上所述,本文提出了引入语义约束信息的双语短语嵌入表示模型,以基于深度学习的方法对双语翻译规则信息进行改善,同时针对过翻译问题和欠翻译问题分别提出了自动评价指标,本文的主要贡献如下:1、引入翻译概率分布和复述概率分布约束信息的双语短语嵌入表示模型。针对传统方法中将短语表中的短语视为不同的符号标记,而不考虑短语间语言学信息之间深层关系,并将每个互为翻译的短语对独立看待,忽略了其中拥有相似语义的短语间应存在的约束关系的缺点,本文提出在使用双语递归自编码器模型对短语嵌入表示进行学习的基础上,向其中引入翻译概率分布和复述概率分布作为新的约束信息,迫使所学习到的短语表示是语义平滑的,从而进一步丰富机器翻译模型中的翻译规则信息。本文工作从模型中提取了基于短语嵌入表示的相似度信息特征,并将其融入到了基于短语的机器翻译模型中,NIST中文-英文翻译任务上的效果表明了本文模型的有效性。2、针对过翻译问题和欠翻译问题的自动评价指标。本文提出了基于机器翻译系统译文和对应的参考译文之间的N元组匹配精确度的自动评价指标,分别对过翻译问题和欠翻译问题进行针对性评价,弥补了当前例如BLEU等主流的自动评价指标只在忠实度和流利度两方面对译文整体质量进行评估,而无法针对具体语言现象准确评估的缺陷。在NIST中文-英文翻译任务中的译文结果上,本文所提出的与人工评价结果之间的高度相关性表明了本文所提出的评价指标的必要性和有效性。
其他文献
简述了交联聚乙烯管材的性能及应用领域,对目前市场常见的几种PEX管材的加工方法进行了分类介绍,其中涉及到交联机理、加工设备等.本文还对几种用不同工艺方法加工的PEX管材
目的分析心理护理干预对老年慢性心力衰竭患者认知功能状况及心功能的影响。方法选取2016年3月~2018年3月我院收治的老年慢性心力衰竭患者74例作为研究对象,将其分为实验组和
路基是道路工程项目建设中的重要内容,把握其施工效果,能够尽可能地延长工程使用寿命.本文从吉林省松原市新城东路改造工程施工实例分析入手,重点介绍了道路工程具备的特性,
随着新课程改革的不断深入,教育在不断地"回归"生活,"回归"社会。而"从‘生活’到‘教学’,再从‘教学’到‘生活’"这一良性循环的"生活化教学"模式,也越来越多地被教育界同
结核病是全球范围内严重危害人类健康的公共卫生问题之一。随着结核分枝杆菌分子耐药机制的深入研究,利用基因检测方法快速检测结核分枝杆菌及其耐药性对结核病的治疗具有重
新中国成立后的经济政策,与抗战时期的经济政策相比,有了极大变化,其中也包括渔业。新中国政府在渔业技术推广、渔民教育、渔政和渔业基础设施建设等方面做出了一定的努力。
经济进步对工业发展提出更高的要求,变频调速和自动化控制被广泛应用到实际生产中,引起工业的变革。变频调速的特点是可靠性强,节能稳定,因此受到工业领域的广泛认可,造纸机
利用1962-2017年中国西北地区227个气象站逐日气象观测资料,以标准化降水蒸发指数为干旱指标,研究不同强度(轻旱、中旱、重旱、特旱)干旱频次的年代际变化特征。结果表明:(1)
利用现代远程教育手段开展会计人员的教育已经成为国际会计教育发展的重要趋势。目前,中国会计远程教育还处于起步阶段,在理论和实践应用上还缺乏系统的研究。本文从中国会计
猪繁殖与呼吸综合征(PRRS)于1987年首次在美国南部报道,现已遍布世界各地,给全球的养猪业造成了巨大的经济损失。该病是由猪繁殖与呼吸综合征病毒(PRRSV)引起的一种以妊娠母