基于句对质量和覆盖度的统计机器翻译训练语料选取

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：piglolo1987

【摘要】

：

该文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。该文综合覆盖度和句对翻

【作者】

：

姚树杰肖桐朱靖波

【机构】

：

东北大学自然语言处理实验室,医学影像计算教育部重点实验室（东北大学）

【出处】

：

中文信息学报

【发表日期】

：

2011年2期

【关键词】

：

句对质量评价覆盖度统计机器翻译线性句对质量评价模型训练语料选取 sentence pair quality evaluation coverage

【基金项目】

：

国家自然科学基金资助项目（60873091 61073140）, 中央高校基本科研业务费专项资金、高等学校博士学科点专项科研基金资助（20100042110031）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文研究的目的是在待翻译文本未知的情况下,从已有的大规模平行语料中选取一个高质量的子集作为统计机器翻译系统的训练语料,以降低训练和解码代价。该文综合覆盖度和句对翻译质量两方面因素,提出一种从已有平行语料中获取高质量小规模训练子集的方法。在CWMT2008汉英翻译任务上的实验结果表明,利用本文的方法能够从现有大规模语料中选取高质量的子集,在减少80%训练语料的情况下达到与Baseline系统（使用全部训练语料）相当的翻译性能（BLEU值）。

其他文献

完善碳税设计需考虑三个问题

萨顶顶的一曲《万物生》以天籁空灵之声展现了往日春夏秋冬的自然美，幽美的音乐把人们带到天地生灵和谐而又宁静的状态，同时也反衬了难以超脱的现实境况，当雾霾如挥之难去的魔咒

期刊

设计碳税自然美

欧莱雅市场营销“世界杯”谢幕

2010年6月18日，“欧莱雅校园市场策划大赛”在时尚之都巴黎落下帷幕。葡萄牙队在摘得大赛桂冠的同时将“最佳宣传活动奖”收入囊中，亚军和季军分别被阿根廷队及以色列队获得。

期刊

市场营销欧莱世界杯宣传活动北京大学葡萄牙以色列阿根廷

第6届“美丽重庆”时尚文化节举办

10月26—28日，由重庆市人民政府主办．重庆市商业委员会、重庆市食品药品监督管理局、重庆市人力资源和社会保障局、重庆工商业联合会（总商会）、中国国际贸易促进委员会重庆市委员

期刊

重庆市食品药品监督管理局文化委员会人民政府社会保障人力资源国际贸易

人民币汇率近期波动及其政策意义

2011年12月15日，人民币兑美元即期汇率连续第12个交易日触及人民币跌幅下限。但在12月16日，人民币兑美元一度上涨400多个基点，亦带动境外汇率有所回升，引发了市场的高度关注。当

期刊

人民币汇率政策意义波动即期汇率市场化交易日国际化跌幅

脸部刮痧刮出嫩白好肤色

情不自禁的笑容是最美的,因为它是那样的无可阻挡,就像喜上眉梢是没有办法隐藏的心情。以中医经络的观点来看,身体健康状况会反映在脸部,如果是体内经络的脉气不通,脸部皮肤

期刊

脸部皮肤肤色刮痧身体健康状况中医经络

成功后的思考——议歌曲《一窝雀》的成功与不足

歌曲《一窝雀》的问世,在给人们带来惊喜、欢乐、成功与胜利的同时,也给人们带来深思、遐想与疑惑。当然,首先应该肯定它的成功与胜利。因为,这是词曲作家丰富的生活阅历,饱

期刊

歌曲开阔视野表现内容与时俱进民族民间音乐时代使命生命力历史责任感思考生活阅历

基于柱搜索的高阶依存句法分析

该文提出使用所有的孙子节点构成祖孙特征的高阶依存模型，并且使用柱搜索策略限制搜索空间，最终找到近似最优依存树。另外，该文以较小的时间复杂度为代价，使用了丰富的依存关系特

期刊

计算机应用中文信息处理柱搜索高阶特征依存分析computer application Chinese information processing

培育高效的质量管理体系

本文介绍具有通信行业特点的TL9000标准,特色是坚持以顾客为关注点,培育有效和高效保护电信产品的完整性和使用性的质量管理体系.

期刊

TL9000电信业优质供方领导人论坛质量管理体系产品完整性TL9000 Quest Forum QA System

基于功能词缀串的维吾尔语词性标注方法

维吾尔语作为一种典型的黏着语,通过丰富的功能词缀来表达各种语法和语气。该文探讨了＂词干词性标注方法＂与＂词缀词性标注方法＂在维吾尔语自然语言处理中的优缺点。在大规模语料

期刊

维吾尔语词缀串词性标注Uyghursuffix stringsPOS-Tagging

胆道感染患者中检出细菌分布及其耐药性分析

目的了解引起胆道感染的细菌分布及其耐药情况，指导临床合理用药。方法用常规的方法对胆道感染患者胆汁进行细菌培养、分离，API进行鉴定，按NCCLS标准用K—B法进行药敏检测。用Wh

期刊

胆汁细菌耐药性Bile Bacterium Drug resistance

基于句对质量和覆盖度的统计机器翻译训练语料选取

与本文相关的学术论文