【摘 要】
:
本文的研究任务为知识库的多语言自动扩展,并使用统计机器翻译的技术将知识库中实体标签翻译到另一种语言.为了解决知识库中特定词汇较多及特定领域双语平行语料缺
【机 构】
:
哈尔滨工业大学机器智能与翻译实验室,黑龙江省哈尔滨市150001
论文部分内容阅读
本文的研究任务为知识库的多语言自动扩展,并使用统计机器翻译的技术将知识库中实体标签翻译到另一种语言.为了解决知识库中特定词汇较多及特定领域双语平行语料缺少的问题,本文首先利用知识库中实体的源语言标签挖掘互联网中的双语例句.再次为了解决人名实体中未登录词的问题以提高知识库中人名实体翻译的正确性,本文添加了音译特征来翻译人名实体中的未登录词.此外,为了充分利用知识库中实体的属性信息,本文利用原知识库中人名的性别属性,帮助提高人名实体中未登录词的问题.本文使用电影领域知识库,并实现知识库实体标签从英文到中文的多语言自动扩展.实验表明相比基线系统本方法在BLUE-2 及BLUE 上分别提高了1.3和0.9.
其他文献
青藏高原是目前世界范围内最为独特的草地生态生态系统之一,该生态系统的稳定性及是否退化严重影响中国乃至全球生态安全.同时该生态系统面临超载放牧、鼠害频发、毒草丛生的
玉米秸秆是反刍动物粗饲料的重要来源之一,利用微生物发酵处理玉米秸秆,可提高其营养价值,促进消化吸收.本研究在实验室发酵秸秆饲草研发的基础上,分析了发酵玉米秸秆各营养
21世纪以来,短短的15年,中国草产业经历了三次具有历史意义的裂变式振兴.第一次振兴是国家生态保护建设的需求,第二次振兴是国家奶品质量安全的需求,第三次振兴是国家农业结
In this paper,for the low similarity computation accuracy of concept in the field of domain ontology mapping,formal concept analysis theory and rough set th
In order to avoid the influence from invalid rules in decoding,a method based on translation rules optimization is proposed for machine translation automati
In this paper,we propose a novel approach learning bilingual representations to predict quality estimation of machine translation.We use two bi-directional
Commas are widely distributed and used in Chinese and play important role in detecting boundary of basic units in sentences and discourses.Towards Chinese-E
语言本身的复杂性给机器翻译带来了巨大的困难,对机器翻译结果的详细分析有助于有针对性地提高翻译系统的质量。本文在分析了现代汉语中情态词的分类基础上,选择了四组测试
本文首先对机器翻译引擎的构建思路进行了全面的规划,简要介绍了 Moses 3.0 系统及其特性,理清了引擎的构建思路、形成了引擎构建的总体规划.随后把机器翻译引擎的构建与部
Phrase Treebank is an important resource for Natural Language Processing research and practical application.For Vietnamese,we lack this kind of Treebank res