基于实体链接的语义标注系统的研究与实现

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:journey88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,获取数据的手段越来越多,如通过搜索引擎、社交媒体和专业的问答网站获得数据。由此带来的问题是数据量越来越大,无效的信息也越来越多。用户难以从海量的数据中获取有用的信息,因此获取数据中有用的信息变得越来越重要。实体链接任务是通过分析文本,提取文本中重要实体并关联到知识库中。实体链接目的是帮助人们获得数据中重要的信息。本文主要研究和实现基于实体链接的语义标注系统。本文研究的文本对象是科技文献数据,主要是论文、基金和专利。本文使用的本地知识库包括科技文献中的人名、机构名称和技术名称。本文将结合本地知识库和wiki构建多源知识库。本文将实现基于多源知识库的命名实体链接。对于某一查询词,本文从本地知识库和wiki知识库中获得候选实体集合,采用基于字符的CNN文本分类算法和流行度算法对候选实体进行分类消歧,得到目标实体。同时,此算法还可实现筛选与当前文本相关性较强的实体。不同于传统的候选实体消歧算法,如分类、排序算法,本论文利用了文本所处的背景,使用神经网络CNN分类的方式将候选实体归类至科技文献分类体系下,筛选和当前文本数据类别相同或相近的候选实体。当存在多个候选实体和查询实体类别相同时,使用流行度算法选择最常见的候选实体。本文算法不仅可以实现候选实体消歧,同时还可以达到筛选关键命名实体的目的。可通过设置阈值,只有当候选实体和当前文本类别的距离在某个范围内,才标注此实体。经实验证明,本文的实体链接消歧方法在科技文献领域的文本标注效果表现良好。本文认真研究了 dexter、dbpedia等开源实体链接框架的实现细节,了解实体链接关键的处理流程。本文探索了多源知识库的建设方式以及存储方式,如根据锚文本构建wiki知识库,使用内存数据库PyDbLite存储实体集以及候选实体。本文调研了不同命名实体识别工具的优劣,根据本文场景选择了 AC自动机进行命名实体识别。实验证明AC自动机在本文中不仅具有较高的准确率,还具有识别速度快、消耗资源少的特点。为了实现可用的系统,本文调研了相关的技术及框架,如Python、Django等,同时也调研了 Chrome插件的实现方式。本文在上述的研究基础上实现了实体链接REST服务,提供api根据输入文本返回标注的数据。本文提供了上传文件,对文件内容标注的功能。为了便于使用实体链接功能,本文实现了 Chrome标注插件,可根据用户需求对网页中任意的文本进行标注,以满足用户不同场景下的需求。
其他文献
在近日结束的上海举办的第四届中国国际轨道交通技术年会(CRTS)上,上海贝尔阿尔卡特(ASB)推出了全新的车地无线宽带解决方案,获得了业界的极大关注。
近一年来,地方军民融合发展正在提速,截至目前,四川、上海、山西等省市相继成立了军民融合产业发展基金或投资基金。这些基金多数采取市场化方式运作,支持军民融合重点项目建设。
报纸
稀土矿区生态补偿机制对于合理利用稀土资源、保护环境至关重要,然而目前我国的该项机制设计并不完善.文中在分析目前稀土矿区生态补偿机制缺陷及内在原因的基础上,借鉴国外
主要分析了影响投资回报的因素,及移动蜂窝系统基站建设规模与可通信率、投资回报的关系。
首先提出了用GSM900无线基站在做近海海域覆盖时会出现的一些问题,并阐述了其原因;随后给出了处理这些问题的解决方案,最后提供了一个在实际工程中对某海域覆盖型基站的测试
介绍了危险、有害因素的基本概念,参照《企业职工伤亡事故分类》(GB6441-86)中对事故类别的划分方法,综合考虑起因物、致害物及伤害方式,结合非煤地下矿山开采的特点和专业划分
由国家广播电影电视总局主办、信息产业部全力支持的“中国国际广播电视信息网络展览会”于近日在北京举行。本次展会聚焦行业热点,全面推出了网络电视、移动电视和手机电视等
为克服蒸汽驱“蒸汽超覆”、“汽窜”等现象而应用的各种调剖技术,由于其应用范围、耐温性、成本、施工难度等问题,使得其调剖效果并不理想,本文旨在设计一种无机自胶结颗粒
【活动理念】情绪是个体的心理活动,与每个人的学习、工作和生活等方方面面息息相关。了解情绪,能够自我调整情绪,有助于学生身心的健康成长。心情画作为一种新颖且直观的表
期刊