Data Selection for Machine Translation Domain Adaptation

来源 :第十二届全国机器翻译研讨会 | 被引量 : 0次 | 上传用户:fems0601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  In this talk,we will first give an overview of research on data selection for machine translation domain adaptation.Then,we will introduce a recently proposed method which uses semi-supervised convolutional neural networks(CNNs)to select in-domain training data.This approach is particularly effective when only tiny amounts of in-domain data are available,which makes fine-grained topic-dependent translation adaptation possible.This method performs significantly better than several state-of-the-art data selection methods on several public domain test sets.Finally,we will talk about the ongoing work which extends the CNN-based method to select in-domain data with good translation quality.
其他文献
  翻译模板是对自然语言现象高度的总结概括,也是机器翻译重要的资源,翻译模板的质量关系着机器翻译系统的效能,所以对翻译模板的编写一直是机器翻译领域研究的难题。本文采用
  In order to improve the efficiency of human translation,there is an increasing interest in applying machine translation(MT)to computer assisted translation(
会议
  HowNet is a Chinese-English Bilingual common-sense knowledge base,playing an important role in machine translation tasks.However,when fac-ing domain-specifi
会议
科技术语翻译要求高度的准确性和专业性,通过建立术语语料的领域知识标签,并基于待翻译术语的领域对训练语料进行筛选,可训练出针对领域的翻译模型,能极大改善科技
会议
  显著性检验常用来判断系统之间的性能差异是否来源于系统的性能改善而不是随机误差。用于机器翻译系统的显著性检验通常以句子作为基本的抽样单位,忽略了抽样样本之间的独
  机器翻译的发展有两个重要的维度,一是探索更为有效的数学工具对翻译的建模、计算等问题进行求解,二是使用丰富的先验知识来引导系统进行更加“合理”的翻译。我们发现二者
近几年来,一种基于词嵌入的线性变换方法在可比语料双语词典抽取任务上取得了显著的效果.这种方法假定双语词嵌入空间在翻译时满足线性关系,然而,在实际中,双语词嵌
会议
  机器翻译本质上是离不开语义的,它不仅需要解决源语言的语义表示问题,还要保证源语言的语义完整、正确地传递到目标语言上。最近几年我们可以看到机器翻译研究的兴趣正逐渐
  基于数据驱动的机器翻译方法严重受限于双语训练数据的规模。最为直接的影响之一便是集外词翻译问题:如何处理训练语料中未出现过的词语。由于模型约束与计算复杂度的限制
会议
  基于Encoder-Decoder 的神经机器翻译模型将源语言句子编码到一个语义空间,并基于这个语义空间的源语言句子表示来产生目标语言句子。相比与传统的统计机器翻译,基于隐式语
会议