学术知识图谱的构建及系统设计与实现

来源 :东南大学 | 被引量 : 2次 | 上传用户:xiaoxi21175
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术知识图谱可以应用于科学语义检索、文献推荐和学术知识问答等场景。本文采取自底向上的方式构建了学术知识图谱SchKG(Scholar Knowledge Graph),SchKG结构上是一种异构网络,节点表示文献、作者、关键词短语等多种类型的实体,边表示实体之间的关系。学术知识图谱的构建需要解决信息抽取、作者消歧、指代消解等问题,本文侧重逻辑架构设计、学术信息抽取和学术知识推理。首先设计图谱的逻辑架构,从公开的文献数据集中抽取学术信息形成基本图谱,然后通过学术知识推理丰富图谱内容。具体工作总结如下:(1)SchKG逻辑架构设计:SchKG逻辑架构包括模式层和数据层。模式层位于数据层之上,通过定义图谱中的学术实体和关系类别等学术概念以规范图谱中的数据;数据层利用原生多模型数据库ArangoDB存储学术知识图谱,设计了多顶点多节点集合的存储模式。(2)学术信息抽取:本文图谱的主要内容来自学术信息抽取,抽取工作包括两个部分。利用反序列化和规则从半结构化的文献元数据中抽取文献、作者、摘要等基本学术信息;基于BiLSTM-BiLSTM-CRF模型从非结构化的文献摘要中抽取关键词短语以表达文献主题内容。(3)学术知识推理:本文通过学术知识推理扩展图谱。采用逻辑规则推理作者协同写作关系;采用机器学习方法推理文献相似和作者研究领域相似关系,首先,通过在线隐狄利克雷分布Online LDA(Online latent Dirchlet allocation)生成文献主题分布和TransH模型表示图谱中的实体及关系,然后,基于文献主题分布及实体表示推理文献相似关系,基于作者实体表示和文献相似关系推理作者研究领域相似关系。(4)系统的设计实现与性能测试:首先设计系统架构,整个系统划分为学术知识存储模块、学术信息抽取模块及学术知识推理模块,然后实施对比实验,实验验证了系统关键词短语抽取、学术知识推理及查询性能的优异,最后是图谱可视化和查询展示。
其他文献
我国南海的深、远海天然气田开发,亟需研制、部署LNG-FPSO(天然气在线储卸装置),为海底资源的开采提供装备和技术支撑。为脱除天然气中的硫化氢并实现尾气的达标排放,LNG-FPSO
平面网格多边形的探索问题是典型的online探索问题。本文主要对平面区域中边界几何信息未知的网格多边形探索问题进行研究。关于该问题的研究,不仅涉及到计算几何、数学等领域的相关理论知识,而且涉及到未知危险区域撤离、搜救、游戏产业、机器人路径规划等实际应用问题的求解,所以具有理论和实际两方面的研究价值。网格多边形的探索问题可描述为:给定平面上一个网格区域和一个边界信息未知的多边形P以及与边界相邻的起始
我国是一个贫油、富煤和少气的国家,而低碳醇可作为高附加值化工原料和替代燃料和油品添加剂,具有重大的经济价值,因此通过将煤或生物质等含碳物质气化得到合成气(H2 + CO),
物联网及新型定位技术的发展使得室内定位得以实现,为人们提供室内位置服务成为必然。人们的日常生活处于室内或是室外空间,但实际上大部分时间都在室内环境中度过的。相比之前较为关注的室外空间而言,室内空间结构复杂、语义丰富,不同的人对室内空间服务有着不同的需求与认知,有着不同的语义限制,因此目前已有的室外空间的相关技术无法直接应用在室内空间中。室内空间查询作为一种广泛使用的室内位置服务,目前仍通过关键字匹
随着数字技术的发展,数模转换器(ADC)已广泛应用于通信、计算机和仪表控制等领域,各系统对ADC的性能要求也随之提高。多通道时间交织(TI)结构可提高ADC的采样率和分辨率,然而各通道之间存在的偏置、增益和采样时刻失配严重限制了TIADC的性能,目前学术界以基于定步长的LMS算法为主流的校准方法。然而定步长校准算法存在着收敛速度与精度的矛盾,因此本文有必要对变步长校准算法进行分析与设计,在保证算法
近年来,计算机应用软件涉及领域不断扩大,功能也越发完善。应用软件界面的优劣直接影响到软件系统的功能发挥。由于应用软件界面中信息量大和信息类型多,易导致界面信息杂糅、层次结构不清晰以及信息引导性差问题,加重用户的认知负担,严重影响了用户的操作效率与使用体验。本文从应用软件界面的底层基础—信息结构入手,结合用户认知需求,提出界面信息结构设计策略及优化模型并进行了案例设计,通过实验验证了模型的可行性。论
霍乱弧菌是烈性传染病霍乱的病原菌,是革兰氏阴性菌,单鞭毛,具有游动性。霍乱弧菌通过口进入宿主体内,穿过胃,最后定殖在小肠上皮细胞表面,在此过程中,霍乱弧菌除了克服胃酸
乡村振兴战略作为解决我国当前农村问题的重要决策,对于我国发展国民经济,改善农村生活水平以及缩短城乡差距具有重要的战略意义。近年来,我国各地为贯彻落实乡村振兴战略,陆续开展了乡村规划工作。为更好地实现乡村振兴战略目标,安徽各地政府出台了一系列地政策文件,使得乡村振兴战略得到了十分有效的推进。本论文在学习研究了国内外优秀乡村规划案例以及各学科理论知识的基础上,通过实地调研、文献综合、交叉学科等方法以阜
随着数字化出版、信息技术以及开放获取的发展,科学论文的用户使用行为开始变得可窥可量,科学论文的使用数据逐渐进入科学研究的范围,引起广泛关注。本文以PLoS出版的七本开放获取期刊发表于2014-2015年的科学论文为样本,以期刊官网、PubMed Central和Web of Science平台上的使用数据为来源,从用户使用行为为切入场景,进行Usage Metrics方面的研究。本文首先梳理了Us
砷(arsenic)和锑(antimony)是环境中广泛存在的亲硫元素,具有相似的化学性质、毒理学性质以及地球化学行为。砷、锑的共同污染在矿山周边很常见,近年来,环境中砷、锑共同污染的现象已经得到众多学者的广泛重视,成为环境科学领域的一个研究热点。黔西北是中国典型的土法炼锌区,多年的的金属矿产开发活动产生的大量废渣堆存在矿山周边,人为加快了砷、锑进入周边环境的速度,对周边居民的身体健康和生态环境产