非连续短语模板抽取及短语合并在统计机器翻译中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:ppt91
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译(MT)就是利用计算机将一种自然语言的文本或对话转换为另一种自然语言的文本或对话,同时保持语意的一致性。在给定源语言的情况下,机器翻译的过程就是寻找与源语言在语意上最为匹配的目标语言的决策过程。在各种不同的机器翻译系统中,基于短语的统计机器翻译(Phrased-Based SMT)无疑是最为有效的方法。基于短语的统计机器翻译方法允许源语言和目标语言词语之间存在多对多的关联,从对齐矩阵中抽取出来的短语被放置在短语翻译表中。这样,词语的上下文信息在翻译模型中就可以被考虑进来,并且在把源语言翻译成目标语言过程中所发生的单词之间位置顺序的改变也可以显式的获得。在汉-英机器翻译系统中,基于短语的统计翻译模型较之单纯基于单词的统计翻译模型,翻译效果有着显著的提高。但是,这种方法同时也存在着一些问题。由于短语长度的限制,一些在中文中间隔较远的固定结构并不能被完整的抽取出来。这些结构在中文句子中不连续,而其对应翻译却在英文句子中连续。并且,对短语各个部分分别进行翻译拼凑起来的结果并不等价于将其做为一个整体翻译而获得的结果。本文通过在短语翻译表中加入非连续短语模板和短语合并项来增强机器翻译的效果。短语模板抽取和短语合并过程并不涉及任何的语法信息,仅仅只是从双语对齐语料中获得。本文将简要的介绍抽取和合并的算法细节,并以BLEU做为翻译结果的评测标准,在2002年至2005年NIST (National Institute of Standards and Technology)标准测试语料集上进行对比实验。实验结果表明,加入短语模板和短语合并项后,翻译质量与先前系统相比有了一定程度的提高。
其他文献
近期秦皇岛地区煤市分析近日,秦皇岛地区的煤炭交易行情出现了回暖的迹象,大同优混抵上海港水陆联运划账变更价由春节期间的最低价262元/吨,跳升到264元/吨,特别是大优煤十分抢手。据我们
资源管理区域作为计算网格的主要组成部分,在作业调度和资源分配中起到了重要作用。本文通过对计算网格管理域中作业调度过程的详细分析,发现管理域中的作业都是以一种离散的随
VOD是在数字电视上开展的最具吸引力的增值业务,其交互性满足了人们主动收看电视节目的需要,是目前各国软件研究人员的研究重点。VOD BOSS帮助运营商对VOD系统进行有效管理,
图像的超分辨率(SR, Super Resolution)研究是指从一幅或多幅低分辨率图像(LR, Low Resolution)序列中重构出一幅同场景的高分辨率图像(HR,HighResolution)的过程。近些年,SR
本文对H.264快速运动估计算法的优化进行了研究。文章针对UMHexagonS算法的不足,提出了一种改进的整像素快速运动估计增强EUMI-texagonS算法。增强算法通过增加提前终止阀值3,
“国民之魂,文化予之;国民之魄,文化铸之”。文化是民族的血脉,是人民的精神家园,而文化小康则更是全面小康的题中应有之义。放眼中外,大学历来是文化建设的首善之区与核心腹地。在全面建成小康社会的新征程中,大学应该主动突破那种将文化只是作为陪衬和装饰的视域局限,以前所未有的高度、空前重视的力度、历史纵深的广度,通过实现文化传承与创新和人才培养、科学研究及社会服务的深度融合,来加强和推进校园文化建设。  
期刊
[摘 要] 新时代我国社会主要矛盾反映到高等教育领域,就是发展结构的不均衡、不充分,一般地方高校(尤其是西部)发展滞后就是典型表现之一。这既不利于我国高教整体实力提升及高教强国建设,也不利于国家现代化建设及中国梦实现,当然也不利于教育公平、社会公平推进及和谐社会建设。国家应做好统筹规划,实施政策救济,开展“精准扶贫”“对口支援”等活动,促进地方高校内涵建设,持续发展。  [关键词] 高等教育;主要
G(o|¨)del语言是继Prolog语言之后出现的一种通用、高效、表达性较强的说明性逻辑程序设计语言,它摒弃了Prolog语言中的非逻辑成分,试图解决Prolog语言中存在的语义问题。在
量子信息与量子计算作为一门新兴的学科,是量子物理学与信息科学相结合的产物,越来越多的人正在对其进行研究。量子状态区分作为当今量子信息学研究的重要问题之一也引起了人们
随着多媒体技术和计算机网络技术的发展,数字产品的版权问题显得尤为重要,如何确保数字产品的安全已经成为国内外研究的热点。数字水印技术作为一种新的版权保护方法,从20世