基于农业叙词表的知识图谱构建技术研究

来源 :湖南农业大学 | 被引量 : 2次 | 上传用户:yutou1888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从2012年Google推出知识图谱以提高其搜索质量以来,知识图谱作为人工智能的重要核心技术得到了迅速发展。知识图谱能够有效地提高搜索引擎的搜索质量和问答系统的准确率,已被广泛应用于智能搜索、智能问答、个性化推荐等领域。目前,国内外许多学者都在研究领域知识图谱的构建工作并取得了一定的研究成果。构建知识图谱主要包括知识体系构建、知识获取、知识融合、知识存储、知识推理和知识应用等几大步骤。本文以构建农业知识图谱为研究目标,利用《农业科学叙词表》、循环神经网络模型、条件随机场模型、集成学习、实体关系联合抽取模型、BERT模型等理论和方法,开展了农业知识图谱的模式构建和知识获取研究。论文的主要研究工作总结如下:(1)基于叙词表的农业知识图谱构建方法研究。目前大多数知识图谱构建都是基于维基百科、百度百科等公共资源,抽取概念本体、实体及关系,针对这些公共资源中农业领域知识缺少的问题,提出了一种基于叙词表的农业知识图谱构建方法。研究了叙词表到知识图谱模式层的自动转换规则,以及叙词表到知识图谱数据层的自动构建规则,完成了从《农业科学叙词表》到农业知识图谱的自动构建,最终实现了一个初步的农业知识图谱,该图谱具有6万多个农业叙词实体,以及21万多条由叙词实体、关系组成的三元组。研究结果表明,基于叙词表构建农业知识图谱的方法具有可行性和可靠性。该方法为农业知识图谱的构建提供了一条新思路,也为农业知识图谱的扩展奠定了高质量的数据基础。(2)基于集成学习的农业实体识别模型研究。目前实体识别模型都使用句子截断方式构建模型输入,针对这种方式会丢失句子与句子之间上下文信息的问题,提出了一种基于集成学习的农业实体识别模型ELER。为了训练ELER模型,构建了农业实体识别数据集AgriNER2018,该数据集标注了“沉积物”、“成土过程”、“土层”3种类型的实体,分为训练集和测试集2部分。训练集包含1528个句子,71736个字符,1229个实体。测试集包含231个句子,10242个字符,127个实体。与BILSTM-CRF模型相比,ELER模型在农业数据集AgriNER2018上精确度提高了2.32%,F1值提高了2.92%,在CoNLL2003标准数据集上精确度提高了1.37%,F1值提高了0.7%。结果表明,ELER模型能够有效提高实体识别的结果,且在AgriNER2018上提升更加明显,说明该模型在数据集欠缺的农业特定领域可以进行应用。(3)基于BERT预训练的农业实体关系联合抽取模型研究。目前实体关系联合抽取模型都使用Word2vec模型来训练词向量,针对Word2vec模型不能对多义词建模的问题,提出了一种基于BERT预训练的农业实体关系联合抽取模型BERT-BILSTM-LSTM。为了训练这个模型,构建了农业实体关系抽取数据集AgriRelation2018,该数据集标注了“水果”、“地理位置”2种实体类型和它们之间的“产地”关系,分为训练集和测试集2部分。训练集包含1348个句子,1161个关系实体三元组。测试集包含187个句子,133个关系实体三元组。与LSTM-LSTM-Bias模型相比,BERT-BILSTM-LSTM模型在农业数据集AgriRelation2018上F1值提高了2.8%,在NYT标准数据集上F1值提高了3.3%。结果表明,该模型克服了不能对多义词建模的缺陷,能够基本满足农业领域关系抽取的要求。(4)农业知识图谱构建与应用系统的设计与实现。综合应用上述研究成果,构建了农业知识图谱构建与应用系统,实现了叙词查询、实体识别、关系抽取、实体查询和关系查询等功能。系统的运行验证了上述研究方法、模型和算法的有效性。
其他文献
<正> 大量的实验现已证实,红细胞正常的变形能力,不仅是保障微循环得以正常进行的必需条件和减少外周循环血管中血流阻力的重要因素,而且也是决定红细胞自身寿命的影响因素。
建筑工程的施工和投入使用与人们的生产和生活都有紧密的、不可分离的关系,建筑的安全水平、施工质量等内容是共同需要 关注的,而建筑机电安装工程的施工技术及质量控制则在
2017年5月以来,广西南宁市武鸣区不动产登记中心坚持以务实廉洁、高效便民为目标,不断创新思路,从优化流程、便捷群众的角度不断地改进工作方法,推动不动产登记工作驶入“快
2015年11月以来,广西田东县国土资源局统筹推进2015年度土地矿产卫片执法监督检查工作,采取多项措施,确保按时完成各项工作任务。
中药药效物质的阐明是中药现代化的基础,现代色谱技术在中药药效物质研究中发挥着重要作用,极大推动了中药药效物质的阐明。本文结合作者研究工作,主要从分析检测、分离制备
百年乐是广西中医学院制药厂开发的抗老健身中成药。本文采用电子自旋共振测定技术,研究了百年乐在体外对常温下稳定的1,1-二苯基-苦基肼(DPPH)自由基及其具有生物活性的超氧
【正】 一部解释性的词典,在词目选定以后,对每个词目进行解释是最重要、最根本、也是难度最大的工作;只有把每个词目的解释全部完成,一部词典才基本成功。因此,一个认真的词
为探讨老年完全性卒中发病率与气象因素的相关性,本文采用偏相关和复相关的统计方法进行相关分析,报告如下。 材料和方法 框架人群、抽样方法、抽样比及样本所依据的置信度均
妇女怀孕后,每28天(4周)算作1个妊娠月,妊娠期共280天,折合为10月,所以俗称“十月怀胎”。妊娠28周以后,胎儿及其附属物(胎盘、胎膜、羊水等)由母体产道娩出的过程,叫做“分
实验观察了西洋参茎叶皂甙对老年大鼠血清和组织中超氧化物歧化酶(SOD)的作用。结果表明,西洋参茎叶皂甙50mg/kg能明显提高老年大鼠血清和组织中SOD的活性,与对照组相比有显著性差异(P〈0.01),同样剂量