基于维基百科的命名实体消歧的研究与实现

被引量 : 9次 | 上传用户:hongguoqwer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,网络上产生了大量的非结构化数据。如何从这些大数据中获取有用的信息,成为自然语言处理领域亟待研究解决的问题。而自然语言中广泛存在的歧义问题.,使得系统无法准确的获取文本的含义,从而制约着相关技术的发展。因此,消除命名实体的歧义现象有着深刻的意义。命名实体消歧涉及到很多的关键技术,包括特征提取、排序、聚类等。本文通过对这些问题的深入研究,提出了一种基于维基百科的命名实体消歧方法,并根据该方法构建了一个命名实体消歧原型系统。本文使用Entity Linking评测数据对系统的有效性进行验证,在Entity Linking2012和Entity Linking2011数据集上,系统F值分别能够达到0.670和0.746。本文主要贡献具体描述如下:1.提出一种多规则的缩写词扩充方法。在以往的缩写词扩充方法中,大多只使用较少的规则。由于自然语言的灵活性和表达方式的多样性,这些方法并不适合所有的缩写词及简称。因此,本文使用多种规则来对缩写词进行扩充。2.提取多种特征来描述待消歧命名实体指称及其与候选实体之间的关系。多数研究往往集中在提取表层特征。但是由于一词多义现象的广泛存在,仅使用此类特征有着一定的局限性。因此,本文在提取表层特征的同时提取多种语义特征。3.采用排序学习算法对待消歧命名实体指称生成的对应候选实体集合进行排序。传统的排序方法虽然简单、易于调试,但是在排序过程中能利用到的特征非常少,远远无法挖掘出在数据集合内部支配排序的有用信息,这些因素都导致系统排序的性能不理想。鉴于此,本文在候选实体排序阶段使用能够整合多种特征排序学习算法。4.本文提出的命名实体消歧方法结合了实体链接算法和实体聚类算法。该方法有效的弥补了以往命名实体消歧方法只使用实体链接算法或实体聚类算法其中一种方法的不足。
其他文献
网络意见领袖是以互联网为平台,借助社会热点问题设置或传播网络议题,获得较高的认同度或公众参与度,进而产生较高网络舆论影响力的虚拟或现实个人、群体或组织。网络意见领袖的存在,不仅丰富了人们的信息获取来源,也改变了人们的信息浏览方式。受影响的群体中,尤以大学生群体为重,大学生群体乐于在自由宽松的环境中与网络意见领袖交流观点,表达自我。与大学生思想政治教育者相比,网络意见领袖对大学生群体的作用影响更显著
【正】欧洲资本主义国家在世界范围内推行自由贸易,进而发展为殖民主义和帝国主义,这为近代西方教会和传教士在中国活动开辟了新时代。19世纪初至鸦片战争前,较早来到中国而
无线通信技术的发展极为迅速,从提供基本的移动语音、短消息等低速数据业务发展到如今移动宽带所支持的各种高速无线上网、娱乐、计算与移动信息服务。在各种技术的发展与融
通过对大同煤矿集团公司在煤炭生产、加工过程中产生的煤矸石和煤泥的统计分析以及在这些资源的综合利用上存在的问题的探讨,介绍了公司在煤矸石以及煤泥综合利用上的几种有
随着互联网的飞速发展,各种新兴业务不断涌现,用户对传输带宽的要求也越来越高,光接入技术面临着前所未有的挑战。波分复用无源光网络(WDM-PON)作为新型光接入网方案,能够满
射频识别(RFID, Radio Frequency Identification)技术是允许读写器无需与标签直接接触的一种自动识别技术,将射频信号利用空间耦合方式进行信息传递并对所传递的射频信号进
为了延长大同煤矿集团公司大斗沟矿井的服务年限,集团公司将大西沟东井并入大斗沟井开采。文章就两井合并后通风方式的确定进行了介绍。
随着Web2.0的发展日渐成熟,越来越多的网站信息资源依赖于用户的参与、主导和建设。这些由用户自发创造,并在传播的过程中不断丰富和壮大的信息资源被称为用户创作内容(User-
口语交际是人们相互联系,相互合作的一种手段和方式。导游职业口语是导游与游客之间交流思想、表达感情、进行讲解、指导游览、传播文化的交际手段。导游人员作为旅游业的形象
杀菌性/通透性增强蛋白(bactericidal/permeability increasing protein,BPI)是存在于人和哺乳动物多形核粒细胞内的一种阳离子抗菌蛋白,在中性粒细胞的诸多抗菌成分中,BPI蛋白