论文部分内容阅读
在第四范式科研模式下,对科学数据这类已有科研成果的分析和利用,成为实现科技创新的重要途径。在科研大数据的背景下,科研人员对领域知识点的需求也在不断增强。人工智能的发展也是建立在对人类已有知识的学习、利用再创新基础之上。而领域知识图谱是揭示某一领域知识的语义网络,它能够有效支持科研创新、知识点获取和知识推理等。
本文从科研人员的领域知识点需求出发,通过领域知识图谱的构建,获取领域知识点,满足科研人员需求。具体而言,本文从蓝细菌领域的知识点需求出发,设计了知识图谱逻辑层,提出了面向科技文献全文内容的领域知识抽取方法,提供了知识融合与存储的解决方案,构建了蓝细菌领域知识图谱,并从中自动获取了领域知识点。本文的重点及难点是探究从科技文献中抽取领域知识的技术解决方案。从科技文献中抽取领域知识具有两大特点,首先,科技文献中的知识是经领域专家评审确认过的内容,可信度与权威性高;其次,领域知识抽取是为满足领域需求服务的,因此领域知识抽取需深入调研和分析科研人员的知识点需求。
已有的知识抽取多基于科技文献摘要,但科技文献内容中的知识更加丰富。与此同时,从科技文献内容中抽取知识难度更大。首先,由于其语义信息更丰富,数据标注更加困难,没有一定量的标注数据,就无法很好地应用目前在信息抽取领域效果较好的深度学习方法;其次,相比摘要文本,科技文献内容中的知识密度小,会存在大量的噪声文本;最后,相比摘要文本中的知识,科技文献内容中的知识更多元,更复杂,这意味着诸如模式学习等简单的方法难以达到较好的效果。
针对领域文献中的知识抽取特点,论文提出基于多策略融合的知识抽取方法。本论文提出了Pat-Crf和Pat-Bilstm_crf的实体识别模型,该方法将模式学习与条件随机场和长短时记忆神经网络相结合,该方法能迭代生成一定量的可信标注数据,能学习到实体上下文更深层的语义信息,能考虑到各个实体类型之间的相互影响。在关系抽取方面,本文提出了Pat-CNN的关系抽取模型,将模式学习与卷积神经网络相结合,模型的输入是实体识别的结果,输出的是领域知识。与通常的模式学习不同,关系模式学习具有其特殊性,它不直接匹配关系,而是匹配关系的左实体上文、左实体与右实体的中间文本、右实体的下文,这样的关系上下文规模较大,很难进行精确字面匹配;其次,关系上下文描述会有无限多种,而对应的关系则是有限的。基于这两点,本文使用TF-IDF将文本表示为向量,采用了更加泛化的模式表示。
基于上述技术思路,论文选择Python、Tensorflow作实验框架,蓝细菌领域的科技文献作实验数据,实现了领域知识抽取实验系统,通过不同方法的准确率和召回率进行对比分析,验证了方案的可行性和有效性。最后,将上述方法抽取的知识进行简单融合,选择NEO4J图数据库进行存储,构建了蓝细菌领域知识图谱,满足了科研人员的领域知识点需求,达到了本文的预期目标。
本文从科研人员的领域知识点需求出发,通过领域知识图谱的构建,获取领域知识点,满足科研人员需求。具体而言,本文从蓝细菌领域的知识点需求出发,设计了知识图谱逻辑层,提出了面向科技文献全文内容的领域知识抽取方法,提供了知识融合与存储的解决方案,构建了蓝细菌领域知识图谱,并从中自动获取了领域知识点。本文的重点及难点是探究从科技文献中抽取领域知识的技术解决方案。从科技文献中抽取领域知识具有两大特点,首先,科技文献中的知识是经领域专家评审确认过的内容,可信度与权威性高;其次,领域知识抽取是为满足领域需求服务的,因此领域知识抽取需深入调研和分析科研人员的知识点需求。
已有的知识抽取多基于科技文献摘要,但科技文献内容中的知识更加丰富。与此同时,从科技文献内容中抽取知识难度更大。首先,由于其语义信息更丰富,数据标注更加困难,没有一定量的标注数据,就无法很好地应用目前在信息抽取领域效果较好的深度学习方法;其次,相比摘要文本,科技文献内容中的知识密度小,会存在大量的噪声文本;最后,相比摘要文本中的知识,科技文献内容中的知识更多元,更复杂,这意味着诸如模式学习等简单的方法难以达到较好的效果。
针对领域文献中的知识抽取特点,论文提出基于多策略融合的知识抽取方法。本论文提出了Pat-Crf和Pat-Bilstm_crf的实体识别模型,该方法将模式学习与条件随机场和长短时记忆神经网络相结合,该方法能迭代生成一定量的可信标注数据,能学习到实体上下文更深层的语义信息,能考虑到各个实体类型之间的相互影响。在关系抽取方面,本文提出了Pat-CNN的关系抽取模型,将模式学习与卷积神经网络相结合,模型的输入是实体识别的结果,输出的是领域知识。与通常的模式学习不同,关系模式学习具有其特殊性,它不直接匹配关系,而是匹配关系的左实体上文、左实体与右实体的中间文本、右实体的下文,这样的关系上下文规模较大,很难进行精确字面匹配;其次,关系上下文描述会有无限多种,而对应的关系则是有限的。基于这两点,本文使用TF-IDF将文本表示为向量,采用了更加泛化的模式表示。
基于上述技术思路,论文选择Python、Tensorflow作实验框架,蓝细菌领域的科技文献作实验数据,实现了领域知识抽取实验系统,通过不同方法的准确率和召回率进行对比分析,验证了方案的可行性和有效性。最后,将上述方法抽取的知识进行简单融合,选择NEO4J图数据库进行存储,构建了蓝细菌领域知识图谱,满足了科研人员的领域知识点需求,达到了本文的预期目标。