论文部分内容阅读
在大数据时代,获取数据的手段越来越多,如通过搜索引擎、社交媒体和专业的问答网站获得数据。由此带来的问题是数据量越来越大,无效的信息也越来越多。用户难以从海量的数据中获取有用的信息,因此获取数据中有用的信息变得越来越重要。实体链接任务是通过分析文本,提取文本中重要实体并关联到知识库中。实体链接目的是帮助人们获得数据中重要的信息。本文主要研究和实现基于实体链接的语义标注系统。本文研究的文本对象是科技文献数据,主要是论文、基金和专利。本文使用的本地知识库包括科技文献中的人名、机构名称和技术名称。本文将结合本地知识库和wiki构建多源知识库。本文将实现基于多源知识库的命名实体链接。对于某一查询词,本文从本地知识库和wiki知识库中获得候选实体集合,采用基于字符的CNN文本分类算法和流行度算法对候选实体进行分类消歧,得到目标实体。同时,此算法还可实现筛选与当前文本相关性较强的实体。不同于传统的候选实体消歧算法,如分类、排序算法,本论文利用了文本所处的背景,使用神经网络CNN分类的方式将候选实体归类至科技文献分类体系下,筛选和当前文本数据类别相同或相近的候选实体。当存在多个候选实体和查询实体类别相同时,使用流行度算法选择最常见的候选实体。本文算法不仅可以实现候选实体消歧,同时还可以达到筛选关键命名实体的目的。可通过设置阈值,只有当候选实体和当前文本类别的距离在某个范围内,才标注此实体。经实验证明,本文的实体链接消歧方法在科技文献领域的文本标注效果表现良好。本文认真研究了 dexter、dbpedia等开源实体链接框架的实现细节,了解实体链接关键的处理流程。本文探索了多源知识库的建设方式以及存储方式,如根据锚文本构建wiki知识库,使用内存数据库PyDbLite存储实体集以及候选实体。本文调研了不同命名实体识别工具的优劣,根据本文场景选择了 AC自动机进行命名实体识别。实验证明AC自动机在本文中不仅具有较高的准确率,还具有识别速度快、消耗资源少的特点。为了实现可用的系统,本文调研了相关的技术及框架,如Python、Django等,同时也调研了 Chrome插件的实现方式。本文在上述的研究基础上实现了实体链接REST服务,提供api根据输入文本返回标注的数据。本文提供了上传文件,对文件内容标注的功能。为了便于使用实体链接功能,本文实现了 Chrome标注插件,可根据用户需求对网页中任意的文本进行标注,以满足用户不同场景下的需求。