开放域命名实体抽取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shichun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开放域命名实体抽取是近年来信息抽取领域的研究热点,其主要任务是从多源异构数据中抽取并构建开放类别命名实体列表。这一任务涉及自然语言处理、机器学习、模式分类、信息抽取等多个领域的关键技术,因此具有重要的学术研究意义。另外,该技术也是查询分析、广告匹配等应用中的关键技术,因此具有重要的应用价值。   开放域命名实体抽取任务包括两个核心问题:第一,如何得到高质量的种子实体。第二,如何准确计算候选实体的置信度。本论文针对上述两个核心问题展开研究,论文的主要工作和创新点归纳如下:   1、提出了一组种子实体质量评估指标与相应度量方法,部分解决了种子质量评估问题   种子实体质量好坏对开放域命名实体抽取系统的结果有非常大的影响(不同种子的差别可以达到40%[Vyas,2009]),因此研究如何度量种子实体的质量非常重要。本文提出了一组融合实体语义知识的种子实体质量评估指标:语义相关度、歧义度以及流行度,并为每个指标设计了相应的计算方法。本项研究成果部分解决了种子质量评估问题。实验结果表明,与使用随机种子相比,该方法取得了9.2%的性能提升。   2、提出了融合语义知识的高质量新种子生成方法,可以有效获得高质量种子实体   人工输入的初始种子实体通常质量比较差[Vyas,2009],因此需要研究如何生成高质量新种子的方法。结合上述种子质量评估指标,本文提出了一种高质量新种子生成方法。该方法能够从初始种子出发,自动生成高质量的新种子。本项研究成果可以有效地获得高质量种子实体。实验结果表明,与使用随机种子相比,该方法取得了7.3%的性能提升。   3、提出了基于图随机游走的候选实体置信度计算方法,部分解决了候选实体置信度计算问题   利用模板进行实体抽取时,为更准确地计算候选实体置信度,本文提出了基于图随机游走的候选实体置信度计算方法。本文认为,模板的质量对于评估候选实体的置信度有重要影响,而候选实体的置信度对于评估模板的质量也有重要作用。因此本文使用候选实体和模板之间的抽取/被抽取关系构建二分图,在图上使用随机游走方法综合度量候选实体的置信度与模板的质量。实验表明,相比于基于模板向量空间的候选实体置信度计算方法,该方法取得了4.4%的性能提升。   利用上下文统计信息进行实体抽取时,为更准确地计算候选实体置信度,本文提出了基于实体空间和基于文档空间的候选实体置信度计算方法。实验表明,与基于上下文统计信息的置信度计算方法相比,该方法可以分别获得0.8%和4.9%的性能提升。   4、提出了融合模板与网络标签扩展的开放域命名实体抽取方法,部分解决了如何准确描述候选实体语义问题   为更准确地刻画候选实体的语义信息,本文首先提出了一种基于网络标签扩展的开放域命名实体抽取方法。与传统基于模板的方法相比,该方法可以更精确地抽取候选实体从而达到较高的准确率。同时为了弥补网络标签扩展方法在覆盖率上的不足,本文将基于模板的抽取方法与基于网络标签扩展的抽取方法相融合,提出了一种融合模板与网络标签扩展的开放域命名实体抽取方法。实验表明,相比于传统基于模板的抽取方法,该方法最高可以取得12.1%的性能提升。
其他文献
在水下机器人作业领域,载人潜水器(Human Occupied Vehicle,简称HOV)使得人类亲自探求深海奥秘的梦想得以实现,也使人类的智慧在深海作业中得到最及时充分的发挥。然而HOV对海洋
近十多年来,随着功能磁共振成像技术(functional Magnetic ResonanceImaging,fMRI)的日趋成熟,这种无创性的技术被广泛地应用到对人类认知以及大脑功能的研究上来,并逐渐成为这些
随着国民经济的发展和城市化进程的加快,我国机动车保有量和道路交通量急剧增加,城市交通拥堵情况愈发严重。研究表明,道路交叉口是城市交通运输系统的瓶颈,因此,本文以城市交通信
在计算机视觉和数字媒体领域中,头部分割和姿态跟踪具有重要的研究意义和应用价值。由于实际场景的复杂性,背景和头部区域均呈现出多种多样的视觉特征。研制鲁棒、稳定并对场景
作为移动机器人的一项核心能力,室内导航始终在机器人领域占有十分重要的地位。随着机器人技术的不断发展,许多成熟的室内导航方法被逐渐地提出并成功的得到了实现。然而由于成
本文在介绍了颗粒粒度测量方法及软测量的研究现状的基础上,针对颗粒粒度在线测量存在的一系列的问题,提出了基于改进最小二乘支持向量回归机的软测量方法,本文研究的内容主
近年来,随着国内外安防监控需求的不断增长,面向安防监控的视频高效编码与快速浏览技术受到了工业界和学术界的密切关注。其中面向监控视频灵活存储的可伸缩编码技术和面向监控
学位
离心式压缩机能够满足工业上对气体压缩的需求,随着工业发展的继续,其应用范围越来越广泛。然而长期以来,离心式压缩机始终存在着一些不可避免的缺点,如整机的效率不高,稳定工况较窄和随着工况的变化往往会发生喘振等现象。因此,分析和了解压缩机内部能量传递情况,详细探讨并建立用于实际生产的离心式压缩机模型是十分必要的。本文以某大型煤气系统中离心压缩机为研究对象,基于Greitzer压缩机理论模型,结合设备工艺
近年来,城市交通问题变得越来越突出。各级政府都在努力寻找缓解拥堵、减少事故的城市交通管控措施。目前较为行之有效的办法是在增加交通供给的同时,采用科学合理的管理措施和