基于词语对齐融合提高统计机器翻译质量

来源 :第四届全国机器翻译研讨会 | 被引量 : 0次 | 上传用户:hlwang72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,多数统计机器翻译系统通过从并行双语语料中抽取翻译知识来建立模型,而词对齐是第一个关键技术,后面的翻译知识获取均要依赖于此。但是词对齐性能和机器翻译性能之间关系尚不明朗,而差异较大的词对齐模型也许会为机器翻译提供互补的信息。 本文分析了两个不同的词对齐模型,发现两者在对语料进行自动词对齐时,对齐结果上存在较大差异。鉴于此,本文采用两种不同策略对这两种不同的词对齐工具取得的结果进行了融合,一种是直接把语料合并在一起,然后一起训练得到一个整体模型,称之为数据融合;另一种是分别训练,只是将最后获得的模型进行融合,称为模型融合。在2007年国内的机器翻译评测数据集上的实验表明,数据融合可以显著提高机器翻译的性能。深入分析发现融合不同词对齐使得不同中文短语的数量增加从而使得未登录词(UNK)减少,而模型融合虽同样能减少UNK数目,但因概率空间不归一,导致性能难以取得改善。
其他文献
1994年10月国家三部委颁布了《关于开展普通话水平测试工作的决定》和《普通话水平测试等级标准(试行)》,有关部门发布了《普通话水平测试大纲》。通过几年的实践,《
会议
笔者就6名国家级测试员对534名来自陕西不同地区中、小学教师普通话水平测试成绩进行了分析,结果显示:关中地区比陕北地区、陕南地区的普通话水平等级(以下简称“等级
会议
疑问:1、说“仔”标记实现体或完成体,那么,它标记的到底是实现体还是完成体?2、上海话中的“仔”怎么会既标记实现体或完成体,又标记持续体? 本文的写作目的,就是试图澄
会议
南通话、金沙话、通东话是江苏旧南通县(县治为今南通市城区)三种主要方言.金沙话处于东部的通东话和西部的南通话之间,通行区域最小,使用人数最少.当时作为县城方
会议
徽州方言全浊字今读统计徽州方言的全浊字今读值得关注。以前的调查和研究揭示,徽州方言的全浊字今读声母逢塞音和塞擦音的时候有送气和不送气两种,相对而言,读送气
会议
笔者曾撰《吴语里的人称代词》一文,讨论吴语人称代词的词源和类型,兼及吴语和闽语人称代词的比较.本文着重比较研究吴语与粤语的单数第三人称的词源、人称代词的复
会议
海门位于南通市东南部,内部存在两种不同的方言,一种是"海门话",一种是"江北话"。这里要讨论的就是"海门话",即海门东南部地区说的方言,属于吴语太湖片的苏沪嘉小片
会议
本文介绍了系统功能功能语言学在现代西方两大哲学思潮、两大符号学派和两类语言学中的位置和发展趋向。并指出笔者认为,系统功能语言学对现代语言学有两大贡献,一是
会议
本文对手机短信语言语用进行了探讨。文章指出,短信语言具有幽默风趣的风格,有的含蓄委婉具有讽刺等效果,有的明了直白表达一种强烈的情感,有的通过造悬念,获得意想不到
会议
本文以基于短语的机器翻译模型为基础,详细描述了参评系统的结构和它的各个模块,并说明了该系统参与CWMT08汉英新闻翻译评测的实验过程,评测结果以及对结果的分析。
会议