基于英汉平行语料库的双语词对齐系统

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:whbniuniu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计机器翻译的核心是双语平行语料库,需要对大量的平行语料库进行统计分析,从而构建出翻译模型。双语词对齐是统计机器翻译系统中关键的一步,词对齐的准确率将直接影响翻译系统的性能。此外,经过标注词对齐信息的语料具有很大的应用价值。它能为词典编撰、跨语言信息检索和语义消歧等自然语言处理任务提供重要的支撑。因此,如何获取高质量的双语词对齐信息具有很大的研究价值。现有的词对齐方法往往通过统计信息进行对齐,没有充分考虑不同语言之间的语言特征。在训练过程中通常需要大量的标注好的词对齐数据,而人工标注的对齐数据又太少,不能满足训练需求。传统的词对齐模型考虑的词汇特征是稀疏的,从而导致语料中低频词的对齐效果较差。本文针对以上问题,采用深度学习的方法进行词对齐的研究,主要工作如下:(1)研究基于循环神经网络的词对齐方法。该方法将传统的隐马尔可夫模型融入循环神经网络中,并且考虑句子的上下文信息,利用词汇的相似性,将句子中的低频词用意思相近的常用词代替,通过常用词找到与目标语言词的对应关系,从而得到低频词的词对齐信息。模型采用无监督的学习方式,省去了人工标注词对齐语料的成本。实验结果表明,该方法改善了词对齐的质量。(2)提出融入依存关系的词对齐方法。该方法需要对输入的句子进行依存关系分析。通过双向长短期记忆神经网络提取上下文的词向量特征,并引入注意力机制调控特征的融合,最终得到分析效果较好的依存分析器。然后将双语训练语料通过分析器标注出依存关系。使用依存关系信息、词性标记信息作为特征,融入对数线性模型中,从而得到词对齐信息。(3)在词对齐的基础上,实现基于短语的统计机器翻译系统,该系统主要包括翻译模型的训练、语言模型的训练、解码等模块。将本文的翻译系统与当前常用的在线翻译平台进行对比分析。
其他文献
介绍龙泉黑木耳产业概况,分析黑木耳生产规模逐年下降、产业萎缩呈现加快趋势这一问题的原因,主要为产业转型滞后和市场竞争加剧。提出重新认识黑木耳产业,发挥政府在黑木耳
患者女,36岁。因慢性肾功能不全行同种异体肾移植术。术后因尿量较少,临床考虑移植肾排异而行彩色多普勒超声检查。采用A cuson Sequoia512彩色多普勒诊断仪,探头频率为3.5M
<正>笔者通读《史记》,发现司马公留给后世教诲多多,慎战思想始终贯穿其中。《孙子·火攻》教诲后人:"主不可以怒而兴师,将不可以愠而致战。"通俗点说,作为一国领袖,不可以一
试验旨在研究枯草芽孢杆菌对黄羽肉鸡生长性能及营养物质代谢率的影响,为枯草芽孢杆菌制剂在黄羽肉鸡生产中的应用提供理论依据。选择60羽7周龄体重相近、健康的黄羽肉鸡,随
目的:探讨质量评价管理用于骨科病房护理管理中的价值。方法:收集医院骨科病房的患者,随机分为观察组和对照组。对照组接受常规骨科护理,观察组接受质量评价管理护理模式。比
为研究IGF-Ⅰ表达和奶牛乳腺发育与泌乳之间的关系,采用qRT-PCR检测奶牛乳腺组织中IGF-Ⅰ的表达情况,应用细胞培养、qRT-PCR、MTT法检测IGF-Ⅰ对奶牛乳腺上皮细胞的影响。结
目的:探讨多排螺旋CT导引下经皮椎间孔镜腰椎间盘摘除术的应用价值。方法:收集80例腰椎间盘突出症患者,都进行单一椎间盘经皮椎间孔镜间盘摘除手术,全部在多排螺旋CT导引下完
目的通过病例回顾探讨副舟骨切除胫后肌腱止点前移联合趾长屈肌腱转位术治疗足副舟骨疼痛综合征继发ⅡA期胫后肌腱失能的疗效。方法回顾上海市长宁区光华中西医结合医院2011
自21世纪以来,数学教学情境受到了国内教育界的广泛关注,并且在理论和实践上都取得了一些成就。近年来,随着核心素养热度的提升,PISA影响力的扩大,人们越来越重视数学知识与
目的 比较发育性髋关节脱位不同脱位程度接受一期手术后的近、中期结果。方法 对652例(共864髋)接受一期手术的DDH患者的临床资料进行回顾性分析,根据患者术前脱位程度(Tonnis标