Data Selection for Machine Translation Domain Adaptation

来源 :第十二届全国机器翻译研讨会 | 被引量 : 0次 | 上传用户：fems0601

【摘要】

：

　　In this talk,we will first give an overview of research on data selection for machine translation domain adaptation.Then,we will introduce a recently propos

【作者】

：

陈博兴;

【机构】

：

National Research Council Canada

【出处】

：

第十二届全国机器翻译研讨会

【发表日期】

：

2016年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　In this talk,we will first give an overview of research on data selection for machine translation domain adaptation.Then,we will introduce a recently proposed method which uses semi-supervised convolutional neural networks(CNNs)to select in-domain training data.This approach is particularly effective when only tiny amounts of in-domain data are available,which makes fine-grained topic-dependent translation adaptation possible.This method performs significantly better than several state-of-the-art data selection methods on several public domain test sets.Finally,we will talk about the ongoing work which extends the CNN-based method to select in-domain data with good translation quality.

其他文献

基于HNC理论的汉英机器翻译模板研究

　　翻译模板是对自然语言现象高度的总结概括，也是机器翻译重要的资源，翻译模板的质量关系着机器翻译系统的效能，所以对翻译模板的编写一直是机器翻译领域研究的难题。本文采用

会议

HNC理论汉英机器翻译翻译模板自然语言语句格式机器翻译系统转换部分质量关系

MinKSR:A Novel MT Evaluation Metric for Coordinating Human Translators with the CAT-oriented Input M

　　In order to improve the efficiency of human translation,there is an increasing interest in applying machine translation(MT)to computer assisted translation(

会议

Automatic Construction of Domain Terminology Knowledge Base for HowNet Based on the Headword

　　HowNet is a Chinese-English Bilingual common-sense knowledge base,playing an important role in machine translation tasks.However,when fac-ing domain-specifi

会议

基于二维词汇化领域知识的日汉科技术语翻译方法研究

科技术语翻译要求高度的准确性和专业性,通过建立术语语料的领域知识标签,并基于待翻译术语的领域对训练语料进行筛选,可训练出针对领域的翻译模型,能极大改善科技

会议

基于测试集的机器翻译系统显著性检验方法

　　显著性检验常用来判断系统之间的性能差异是否来源于系统的性能改善而不是随机误差。用于机器翻译系统的显著性检验通常以句子作为基本的抽样单位，忽略了抽样样本之间的独

会议

测试集机器翻译系统显著性检验随机误差检验方法抽样样本独立性假设性能改善

机器翻译中先验知识的使用--分析及实践

　　机器翻译的发展有两个重要的维度，一是探索更为有效的数学工具对翻译的建模、计算等问题进行求解，二是使用丰富的先验知识来引导系统进行更加“合理”的翻译。我们发现二者

会议

统计机器翻译知识的使用分析先验知识相关问题引导系统数学工具使用问题

基于双向线性变换的可比语料双语词典抽取重排序方法

近几年来,一种基于词嵌入的线性变换方法在可比语料双语词典抽取任务上取得了显著的效果.这种方法假定双语词嵌入空间在翻译时满足线性关系,然而,在实际中,双语词嵌

会议

语义驱动的机器翻译

　　机器翻译本质上是离不开语义的，它不仅需要解决源语言的语义表示问题，还要保证源语言的语义完整、正确地传递到目标语言上。最近几年我们可以看到机器翻译研究的兴趣正逐渐

会议

语义驱动机器翻译语义相似度计算源语言相关研究相关工作目标语言句法

神经网络机器翻译中的集外词处理方法

　　基于数据驱动的机器翻译方法严重受限于双语训练数据的规模。最为直接的影响之一便是集外词翻译问题：如何处理训练语料中未出现过的词语。由于模型约束与计算复杂度的限制

会议

基于知识表示和融合的神经机器翻译

　　基于Encoder-Decoder 的神经机器翻译模型将源语言句子编码到一个语义空间，并基于这个语义空间的源语言句子表示来产生目标语言句子。相比与传统的统计机器翻译，基于隐式语

会议

Data Selection for Machine Translation Domain Adaptation

与本文相关的学术论文