基于英汉平行语料库的命名实体对自动获取方法研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户:hubeijj111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体主要包括人名、地名和组织机构名,是标识某一特定实体的词或词组。而双语命名实体等价对是指来自两种不同语言的具有互译关系的命名实体对。现阶段全球化进程不断加快,不同国家不同语言间沟通交流的重要性和必要性日益凸显,在此社会背景下机器翻译等自然语言处理技术得到了迅速的发展。作为当前研究热点之一,命名实体的识别和翻译技术正广泛应用于自然语言处理的各项任务中,如机器翻译、信息检索、问答系统、文本分类及自动文摘等。本文主要针对英汉平行语料中命名实体等价对的自动获取方法进行研究,在学习前人工作的基础上,提出一种基于音译模型、翻译模型等特征的英汉命名实体等价对的抽取方法。首先从英汉平行语料中分别抽取英文和中文命名实体,形成多个候选命名实体等价对,然后计算得到每个候选等价对之间多个特征的特征值,最后利用命名实体等价对对齐模块,采用最大熵模型将候选命名实体等价对进行对齐,从而得到最终的命名实体等价对集合。实验结果表明,本文提出的方法能够有效地提高平行语料中双语命名实体等价对抽取的准确率和召回率。本文的主要贡献有:(1)提出一种从平行语料中抽取双语命名实体等价对的方法;(2)有效地利用了平行语料中命名实体等价对之间的特征:音译模型、翻译模型、同现频率及词长度特征;(3)基于上述特征利用最大熵模型对候选命名实体等价对进行对齐。
其他文献
受软件危机影响,人们越来越关注软件系统的开发效率和开发成本。随着软件规模的不断扩大,对于软件开发方法的研究,从只集中于单个产品转移到集中于一个产品族的设计与生产;从只集
无线AdHoc网络指的是由若干带有无线收发信机的节点构成的一个无中心的、多跳的、自组织的对等式通信网络,它可以不依赖预先存在的网络基础设施而快速展开,自适应的组网,各节点
随着无线网络技术的发展,彩信已经成为目前社会交流娱乐的一种主要方式。2006年是中国移动公司的彩信业务推广年。一个彩信用户定制业务是否成功主要决定于SP和彩信中心关于
近年来,随着实时多媒体数据的业务量不断增大,人们对网络在带宽、性能、覆盖范围等方面的需求的日益提高。面对这些新的挑战,IEEE 802.16无线城域网技术以其经济便捷、运行维
目前在无线网络环境中,移动IP是众多支持主机移动的方法中较受到研究者青睐的,然而在移动IP中依然存在一些问题没有很好地解决,如三角路由就是一个突出的问题。在这篇论文中,我们
信函自动分拣是机器视觉技术的应用,是邮政自动化的一个重要环节,它直接决定了邮政是否能够实现自动化,是否能满足日益增加的信件处理需求。信函自动分拣涉及到很多机器视觉技术
随着计算机网络技术的高速发展,计算机病毒越来越猖獗,计算机安全越来越受到人们的重视。而随着病毒在网络上的飞速蔓延,传统防御病毒的手段和工具显示出越来越多的缺陷。其中最
最佳离散信号及其设计在现代通信、雷达、声纳、制导、空间测控,以及电子对抗等有线和无线系统的优化设计中,扮演着越来越重要的角色。结构优良的信号可以提高系统的抗干扰、
近些年来,随着影像技术的蓬勃发展与应用,在越来越多的医疗诊断中,影像技术被用来提高医生诊断的效率并降低误诊率。在这种情况下,医疗机构需要处理越来越多的医学影像,而其
本文结合中国石油具体项目,详细阐述了一个QHSE(Quality, Health, Safety & Environment)环境下的商务智能系统的设计和实施过程,并详细介绍了基于这个新的信息平台的应用—