基于实体链接的语义标注系统的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户：journey88

【摘要】

：

在大数据时代,获取数据的手段越来越多,如通过搜索引擎、社交媒体和专业的问答网站获得数据。由此带来的问题是数据量越来越大,无效的信息也越来越多。用户难以从海量的数据

【作者】

：

刘特

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

自然语言处理实体链接卷积神经网络多源知识库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据时代,获取数据的手段越来越多,如通过搜索引擎、社交媒体和专业的问答网站获得数据。由此带来的问题是数据量越来越大,无效的信息也越来越多。用户难以从海量的数据中获取有用的信息,因此获取数据中有用的信息变得越来越重要。实体链接任务是通过分析文本,提取文本中重要实体并关联到知识库中。实体链接目的是帮助人们获得数据中重要的信息。本文主要研究和实现基于实体链接的语义标注系统。本文研究的文本对象是科技文献数据,主要是论文、基金和专利。本文使用的本地知识库包括科技文献中的人名、机构名称和技术名称。本文将结合本地知识库和wiki构建多源知识库。本文将实现基于多源知识库的命名实体链接。对于某一查询词,本文从本地知识库和wiki知识库中获得候选实体集合,采用基于字符的CNN文本分类算法和流行度算法对候选实体进行分类消歧,得到目标实体。同时,此算法还可实现筛选与当前文本相关性较强的实体。不同于传统的候选实体消歧算法,如分类、排序算法,本论文利用了文本所处的背景,使用神经网络CNN分类的方式将候选实体归类至科技文献分类体系下,筛选和当前文本数据类别相同或相近的候选实体。当存在多个候选实体和查询实体类别相同时,使用流行度算法选择最常见的候选实体。本文算法不仅可以实现候选实体消歧,同时还可以达到筛选关键命名实体的目的。可通过设置阈值,只有当候选实体和当前文本类别的距离在某个范围内,才标注此实体。经实验证明,本文的实体链接消歧方法在科技文献领域的文本标注效果表现良好。本文认真研究了 dexter、dbpedia等开源实体链接框架的实现细节,了解实体链接关键的处理流程。本文探索了多源知识库的建设方式以及存储方式,如根据锚文本构建wiki知识库,使用内存数据库PyDbLite存储实体集以及候选实体。本文调研了不同命名实体识别工具的优劣,根据本文场景选择了 AC自动机进行命名实体识别。实验证明AC自动机在本文中不仅具有较高的准确率,还具有识别速度快、消耗资源少的特点。为了实现可用的系统,本文调研了相关的技术及框架,如Python、Django等,同时也调研了 Chrome插件的实现方式。本文在上述的研究基础上实现了实体链接REST服务,提供api根据输入文本返回标注的数据。本文提供了上传文件,对文件内容标注的功能。为了便于使用实体链接功能,本文实现了 Chrome标注插件,可根据用户需求对网页中任意的文本进行标注,以满足用户不同场景下的需求。

其他文献

上海贝尔阿尔卡特携全新解决方案亮相CRTS

在近日结束的上海举办的第四届中国国际轨道交通技术年会（CRTS）上，上海贝尔阿尔卡特（ASB）推出了全新的车地无线宽带解决方案，获得了业界的极大关注。

期刊

上海贝尔阿尔卡特CRTS交通技术无线宽带

军民融合产业基金规模渐起业界呼吁构建投融资体系

近一年来，地方军民融合发展正在提速，截至目前，四川、上海、山西等省市相继成立了军民融合产业发展基金或投资基金。这些基金多数采取市场化方式运作，支持军民融合重点项目建设。

报纸

论我国稀土矿区生态补偿机制的建设与完善

稀土矿区生态补偿机制对于合理利用稀土资源、保护环境至关重要,然而目前我国的该项机制设计并不完善.文中在分析目前稀土矿区生态补偿机制缺陷及内在原因的基础上,借鉴国外

期刊

稀土矿区生态补偿生态恢复补偿机制rare earth mining ecological compensation ecological restora

浅析基站建设规模与可通信率、投资回报的关系

主要分析了影响投资回报的因素，及移动蜂窝系统基站建设规模与可通信率、投资回报的关系。

期刊

基站建设可通信率盈利投资回报Base station deployment Communication availability rate Prof

无线基站用于海域覆盖时出现的问题及其解决方法

首先提出了用GSM900无线基站在做近海海域覆盖时会出现的一些问题,并阐述了其原因;随后给出了处理这些问题的解决方案,最后提供了一个在实际工程中对某海域覆盖型基站的测试

期刊

无线基站GSM900近海海域解决方案覆盖型Sea area coverage Timing advance Time slot Synchronism

非煤地下矿山危险有害因素识别

介绍了危险、有害因素的基本概念,参照《企业职工伤亡事故分类》（GB6441-86）中对事故类别的划分方法,综合考虑起因物、致害物及伤害方式,结合非煤地下矿山开采的特点和专业划分

期刊

非煤地下矿山有害因素存在场所non-coal underground mines hazardous and harmful factors existe

本刊参加“中国国际广播电视信息网络展览会”

由国家广播电影电视总局主办、信息产业部全力支持的“中国国际广播电视信息网络展览会”于近日在北京举行。本次展会聚焦行业热点，全面推出了网络电视、移动电视和手机电视等

期刊

中国国际广播电视信息网络展览会国家广播电影电视总局信息产业部教育信息化新技术交流行业热点网络电视手机电视移动电视数字电视

无机自胶结颗粒型蒸汽剖面调整剂研制及性能研究

为克服蒸汽驱“蒸汽超覆”、“汽窜”等现象而应用的各种调剖技术,由于其应用范围、耐温性、成本、施工难度等问题,使得其调剖效果并不理想,本文旨在设计一种无机自胶结颗粒

学位

自胶结蒸汽调剖剂合成固结性能封堵性能调剖性能

换个想法心情好——五年级学生情绪管理辅导

【活动理念】情绪是个体的心理活动,与每个人的学习、工作和生活等方方面面息息相关。了解情绪,能够自我调整情绪,有助于学生身心的健康成长。心情画作为一种新颖且直观的表

期刊

情绪调整心情画五年级活动设计

关于正式实施“保安单元”等13项产品认证的通知

期刊

基于实体链接的语义标注系统的研究与实现

与本文相关的学术论文