论文部分内容阅读
作为国家的重要战略资源,科技资源为科技活动提供了物质保障,为科技管理、决策和科学研究提供了基本性条件保障。科技资源在科技活动中的基础性作用逐渐被认识,并被赋予“第一资源”的历史地位。而企业不仅是科技资源的重要消费者,也是科技资源的重要组成部分。目前,中国中小型企业超过3000万家,个体工商户数量也超过7000万户。随着科学技术的不断发展,各企业普遍采用信息化技术进行科技资源管理,激增大量高质量的科技资源信息,但是这些科技资源由企业独立创建和维护,缺少整合共享,形成了大量分散、分离的“信息孤岛”,未能得到充分有效的利用。除了信息繁杂分散外,人们在利用企业信息时往往来自于个人的印象、他人的评价或对企业部分信息的解读,对于企业的全部信息无法有效利用。
针对上述问题,本文完成如下工作:
(1)构建京津冀科技企业知识图谱。首先使用京津冀科技企业数据,设计本体模型,进行格式标准化和数据清洗;接着利用爬虫获取额外企业信息,对原始数据进行信息补全,随后生成RDF三元组,完成企业知识图谱的构建;研究基于Jena的知识推理技术,对构建完成的知识图谱进行知识推理,并将推理出的内容补充到知识图谱中;最后采用Neo4J图数据库存储知识图谱,支持Cypher语句查询和查询结果可视化展示。
(2)提出了基于Doc2Vec模型与HAKE模型的企业知识图谱嵌入表示方法。首先使用Doc2Vec模型对企业经营范围等描述信息进行嵌入表示,得到企业节点向量和文本的词向量;再利用HAKE模型对知识图谱进行表示学习,并将基于Doc2Vec模型的节点嵌入表示作为HAKE模型的预训练向量,得到知识图谱中各实体和关系的嵌入表示;最后通过对比实验,验证了所提出的方法可以有效提高企业信息检索的准确率。
(3)构建区域科技企业信息检索系统。利用构建完成的知识图谱进行二次开发,采用SpringBoot框架为后台连接Neo4J数据库,将用户的检索信息转化为Cypher查询语句获取检索结果,将数据操作过程隐藏在后台,降低知识图谱的使用成本;使用D3.js完成结果的可视化表示便于用户理解。系统提供了用户管理、条件筛选、关键词检索和数据管理等功能,以满足用户对企业详细信息的检索需求。测试结果表明,知识图谱嵌入可以提高知识图谱的可用性,有助于深入挖掘节点内在的信息,为合理有效地利用科技企业资源提供了新的思路。
针对上述问题,本文完成如下工作:
(1)构建京津冀科技企业知识图谱。首先使用京津冀科技企业数据,设计本体模型,进行格式标准化和数据清洗;接着利用爬虫获取额外企业信息,对原始数据进行信息补全,随后生成RDF三元组,完成企业知识图谱的构建;研究基于Jena的知识推理技术,对构建完成的知识图谱进行知识推理,并将推理出的内容补充到知识图谱中;最后采用Neo4J图数据库存储知识图谱,支持Cypher语句查询和查询结果可视化展示。
(2)提出了基于Doc2Vec模型与HAKE模型的企业知识图谱嵌入表示方法。首先使用Doc2Vec模型对企业经营范围等描述信息进行嵌入表示,得到企业节点向量和文本的词向量;再利用HAKE模型对知识图谱进行表示学习,并将基于Doc2Vec模型的节点嵌入表示作为HAKE模型的预训练向量,得到知识图谱中各实体和关系的嵌入表示;最后通过对比实验,验证了所提出的方法可以有效提高企业信息检索的准确率。
(3)构建区域科技企业信息检索系统。利用构建完成的知识图谱进行二次开发,采用SpringBoot框架为后台连接Neo4J数据库,将用户的检索信息转化为Cypher查询语句获取检索结果,将数据操作过程隐藏在后台,降低知识图谱的使用成本;使用D3.js完成结果的可视化表示便于用户理解。系统提供了用户管理、条件筛选、关键词检索和数据管理等功能,以满足用户对企业详细信息的检索需求。测试结果表明,知识图谱嵌入可以提高知识图谱的可用性,有助于深入挖掘节点内在的信息,为合理有效地利用科技企业资源提供了新的思路。