基于汉英双语语料的命名实体抽取和翻译

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:cdl872
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体的翻译和抽取在许多自然语言处理领域的任务中有重要作用,近年来受到了越来越多的关注。尤其在机器翻译领域,命名实体的翻译更是起到了至关重要的作用。本文的研究重点定位于如何借鉴各种机器翻译的方法并结合命名实体自身的特点,对命名实体进行翻译。本文设计了一个中英文命名实体抽取和翻译的整体框架,将翻译和抽取有机地结合在一起,并针对各种命名实体的特点和翻译难点给出了不同的翻译方法。本文作者用大量的实验来探讨如何通过更多知识和方法更准确的翻译命名实体,从而更好地为统计机器翻译服务。论文的主要内容归纳如下:   (1)提出了一种基于多特征分层次的从双语语料库中抽取命名实体对的方法。   双语抽取命名实体对可以用于训练,还可以直接提取命名实体的翻译,在命名实体翻译中占有很重要的地位。针对命名实体的特点,本文作者对数词和人名、地名、机构名等专有名词采用不同的抽取方法。对于数词和与数词相关短语的对齐和抽取,采用先变量替换,再用统计模型从双语语料中抽取含有数词变量短语对的方法。这样可以避免数词数量大所引起的数据稀疏,也可以更全面的得到数词相关短语,并为数词的翻译提供训练语料。对于需要用到音译模型的人名地名和机构名的对齐和抽取,本文首先通过不同的打分策略得到短命名实体,再合并短命名实体生成长命名实体对。这种分别打分的方法可以避免音译意译混合打分引起的区分度降低,同时长命名实体的合并也可以完成音译意译混合命名实体的提取。   (2)提出了一种规则和统计相结合的数词和与数词相关短语的翻译方法。   在统计机器翻译中数词和含有数词的短语数量大并且它们的处理与一般意义上的单词处理有很大差别。本文按照英文数词的表现形式给出几种数词的翻译规则,通过上下文的统计信息确定数词的翻译规则和与数词相关短语的翻译。这种方法将双语语料的统计信息和数词翻译规则有效的结合达到了较好的数词及数词相关短语的翻译结果。   (3)提出了一种词典和统计相结合的人名翻译方法。   在命名实体翻译尤其是新闻领域的翻译里,需要音译的人名比例很高,而音译词通过一般意义的统计机器翻译的方法是很难翻译的。为了解决机器翻译中人名的翻译问题,本文通过输入语料与词典的相似度计算,充分利用词典等外部信息,并通过多模型融合的方式改进音译模型。外部信息的充分利用和音译模型的改进都对人名翻译结果起到了积极的作用。   (4)提出了一种先调序后翻译的机构名翻译方法。   由于传统的机器翻译系统不是专门针对机构名翻译而设计的,所以没有充分利用机构名在结构上的特性。本文利用汉英机构名在结构上的特性,设计了一个针对机构名的先调序后翻译的汉英翻译系统。本文通过粗颗粒度(词性)和细颗粒度(词形)两种层次的模板混合组成调序模型,然后用基于短语的翻译模型对调序后机构名翻译。这种方法把机构名的调序作为一个单独的模块训练模型,在调序方面取得了较好的效果,同时调序后的训练语料可以提供质量更好的短语集,从而提高了机构名的翻译结果。   综上所述,本论文面向命名实体中的各方面做了大量的研究和实验工作,有效地改进了各个命名实体翻译模块的性能,为自然语言处理领域中多种任务的完成奠定了良好的基础。
其他文献
传统的随机系统控制主要是控制随机系统输出的均值和方差等统计特性。近几年来,随机系统控制出现一个新的分支,即随机分布控制。这类系统的主要特点是其输出为系统变量的概率密
在复杂网络的研究中,当前不同领域的学者关注的热点是揭示节点数众多、连接结构复杂的实际网络的整体特性,特别是网络拓扑结构与网络动力学行为之间的关系、结构与功能的形成机
声学模型,是语音识别领域的核心研究方向之一。段模型放宽了隐马尔科夫模型(Hidden Markov Model,HMM)模型在给定状态时语音观测矢量相互独立的假设,获得更精确的声学模型。然而
光刻用准分子激光光源的激励技术有两大特点:其一,高重复率(2kHz至6kHz);其二,高压放电开关不采用闸流管(放电次数有限)。脉冲充电技术可与磁脉冲压缩开关结合起来达到快放电的目
基于内容的图像检索是计算视觉领域一个非常重要而且经典的研究方向,同时,相关的技术在工业界也有非常广泛的应用。近些年来,随着深度学习的兴起,由于卷积神经网络对图像特征很好
随着老龄化社会的到来,人们对家庭服务机器人的需求越来越大。人们期待家庭服务机器人可以通过人机自然语言交互的方式,实现自主导航并提供取送物品等服务。为了实现上述目标,服
本文重点研究了DNA微阵列基因表达数据挖掘算法,涉及孤立点检测、特征选取以及聚类、分类算法研究,这些算法应用于DNA微阵列基因表达数据分析均取得了比较好的效果。 在DN
无线传感器网络是近年来得到普遍重视并迅速发展的新型网络技术。与传统的网络技术不同,无线传感器网络技术将现代无线通信技术、微型传感器技术和网络技术有机地融为一体,在环
脑机接口是一种不依赖于人脑的正常输出通道的脑机通讯系统,是一种新的人机接口方式。它的实质是通过脑电信号推断人的想法和目的,从而实现人机交流。脑机接口既是人类了解和
静息fMRI信号和个体认知功能差异的关系对于理解静息fMRI的生理意义及其临床应用十分重要,但很少有研究系统地考察这一问题。本文就是针对这一个问题从不同侧面研究了静息fMRI