【摘 要】
:
实体提取是机器翻译,自动问答,指代消解等自然语言处理任务的基础。英文实体提取已经有了10多年的研究历史。但是实体提取的目标大多一直局限在人名,地名,机构名三类实体上。
论文部分内容阅读
实体提取是机器翻译,自动问答,指代消解等自然语言处理任务的基础。英文实体提取已经有了10多年的研究历史。但是实体提取的目标大多一直局限在人名,地名,机构名三类实体上。增加实体的类别,提高实体识别的精度,具有重要的研究意义。本文首先用实体链接的办法,证明维基百科不能覆盖现实世界中的所有实体,满足不了人们搜索和了解知识的需求,表明实体提取任务研究的必要性。进而对比了多种实体提取模型之间性能的差异。包括隐马尔可夫模型,最大熵模型,条件随机场模型,名词短语识别模型,斯坦福大学命名实体识别,去标签实体识别模型等。通过对数据的实证分析,证明本文提出的融合多种特征,依托条件随机场训练的去标签模型的实体提取性能最好。另外,为了避免训练数据和测试数据结构高度相似对实验结果的影响,本文还选取了2014年五天的新闻数据,以及微软内部的短文本数据进行测试。本文数据量为百万词次级别,且数据形式丰富,实验结论真实可靠。本文为英文实体提取提供了新的尝试,且已取得一些初步成果,所提出的去标签模型T-NER已投入实际的使用中。
其他文献
对于高校教学楼而言,天然光不仅能够创造一个明亮舒适的内部环境,还能愉悦人们的心情,营造健康和谐的学习氛围。随着我国高校不断的发展,高校教学楼不断增多,对于室内环境舒适度的要求越来越高。但是在一些教学楼设计中存在着设计周期短,天然采光设计不合理的情况。这也导致在白天室外天然光充足的情况下,内部常需要开启照明设备进行补光,不仅提高了建筑总能耗,也不利于学生的身心健康。因此在教学楼设计中打造一个良好的光
本论文主要以汉藏新闻翻译中的新词术语翻译研究,共分四章进行论述、分析和总结,首先比较详细的介绍了新闻的定义、基本特点和基本要求,并通过根据一般的翻译定义与新闻学科
喀斯特地区土壤侵蚀常导致土壤流失、土层变薄、环境恶化。目前,有关喀斯特土壤侵蚀问题已经开展了不少的相关研究,但是运用粒度分析的方法对土壤侵蚀沉积泥沙的研究还有待于进一步的探讨。本文选择滇中喀斯特石牙出露坡地为研究区,于2010年建立了三个不同石牙出露的样地,通过野外实地实验、观测取样、室内实验分析及粒度参数分析的方法对2010-2018年间土壤侵蚀沉积泥沙的颗粒组成、粒度参数特征及其相关变化规律、
目的:研究心肌桥的临床特点、心电图特征及其与冠心病的相关关系。方法:回顾性分析2015年1月1日-2015年1月31日在我院心内科住院,并接受冠状动脉造影的患者的病例资料。根据
文化是人类智慧的结晶。它的传承、学习和交流是人类共同的义务与责任。然而,跨语际文化交流通常需要借助于翻译的作用。在翻译过程中,怎样处理跨语际与不同文化之间的问题,
法律援助是指为经济困难或者为特殊类型的当事人提供减免费用的法律帮助的制度。根据援助对象的不同,可以分为犯罪嫌疑人、被告人的法律援助和被害人法律援助。本文主要以特殊的被害人之一的性犯罪被害人的法律援助制度为研究对象进行研究。性犯罪被害人,在以极度不安和恐怖的心理状态作证时,就很难积极证明其受害事实,如果没有法律代理的律师在场,其受到二次伤害的程度可能更大。推行对性犯罪被害人的法律援助,既能有效地预防
背景与目的:趋化因子及其受体与肿瘤的发生、发展及转移关系密切,是调控肿瘤恶性生物学行为的重要因子。近年来研究发现趋化因子受体CXCR7在肿瘤中具有重要功能,然而,CXCR7在
背景:新生儿缺血缺氧性脑病(Neonatal Hypoxic Ischemic Encephalopathy,HIE)是指围生期由于各种原因而导致的中枢神经系统缺血缺氧性损伤,其发病机制与多种因素相关。PKR(do
随着生理心理的逐渐成熟,高中生已然具备从事生产或服务性劳动的条件,同时也随着生活水平的日益提高以及繁重的学业负担和激烈的升学竞争,高中生往往缺乏一定的劳动意识和劳
现如今随着信息网络技术的高速发展,数字化、信息化时代的来临,现代信息技术已经逐步应用于电子诉讼之中,因此民事电子诉讼以然成为势不可挡的潮流。民事电子诉讼作为一种新型的诉讼方式,其在世界上绝大多数国家和地区都掀起了一股改革的浪潮,都在通过不同形式加强对民事电子诉讼的推行,我国电子化改革亦在进行之中。民事电子诉讼的发展可能会在基本原则、程序运行以及诉讼过程中对传统民事诉讼方式产生一定的影响,给传统民事