自然语言驱动的地理知识图谱构建方法研究

来源 :南京师范大学 | 被引量 : 10次 | 上传用户:shl405567051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“如何科学地表达、组织、存储地理知识?”一直以来就是地理学者所关注的核心科学问题。知识是人类对物质世界以及精神世界探索的结果总和,寄托着人类对智慧的象征。地理知识具有宽泛的概念边界,概念陈述、演化机理、约束关系等等,都属于地理知识的范畴。在当前互联、物联网、大数据和人工智能等高新信息技术环境下,亟需将这些相对孤立且关联复杂的地理知识进行有效地抽取和组织,形成高效、统一、互相联系的地理知识库。知识图谱就是一种知识组织方式,通过节点和节点间连接线揭示概念和概念之间关系。借助节点与关系形成的图结构网络,地理知识有望能够实现大规模数据中全部知识的表达、组织与关联。自然语言是人类最基本、最直接、最方便的知识表达方式。鉴于此,本文从地理学、语言学和计算机科学相结合的角度出发,围绕“知识表达模型、地理信息抽取、地理知识生成、知识图谱构建”的研究主线,较为系统地探讨自然语言驱动的地理知识图谱构建方法。主要研究内容与结论包括以下几个方面:(1)地理知识表达的概念模型与形式化从地理学的基本问题出发,提出了以地理实体为核心的地理知识表达概念模型。为实现当前计算环境中地理知识的可计算,本文从地理知识计算的底层逻辑出发,分析验证知识图谱表达地理知识症结;针对知识图谱逻辑层中描述逻辑的构造算子语义缺失这一问题,从包含、反向、传递和值限定四个方面,扩展知识图谱逻辑层中描述逻辑语言ALC的构造算子,突破知识图谱对地理知识中状态、演化和过程形式化表达的瓶颈,实现地理知识的形式化表达。(2)自然语言中地理实体名称的识别针对地理信息获取的核心要素——地理实体,主要突破自然语言中地理实体名称识别方法的性能。针对自然语言中地理实体的描述特点,提出了顾及上下文特征的词向量表达方法和基于深度信念网络的地理实体识别模型。实验结果表明,该模型与条件随机场模型的性能基本相当,但是识别结果存在显著的差异性和互补性。因此,将两种模型相结合,能够有效提升地理实体识别性能。在此基础上,结合自然语言中地理实体的描述特点,进行自然语言中地理实体的空间信息、时间信息、属性信息和关系信息抽取。(3)地理知识的生成与存储通过构建地理知识的三个表达层次(要素层、组合层和机理层),采用自底向上逐层关联的方法,提出地理实体的空间知识、时间知识、属性知识、状态知识、变化知识、关系知识及演化知识的生成方法。在分析图数据库结构与地理知识的概念模型存在差异的基础上,通过将概念模型进行映射的方法,解决形式化地理知识在图数据库中的存储问题。(4)地理知识图谱构建与实验验证分析以《中国大百科全书·中国地理》语料为实验数据构建地理知识图谱,并从统计性能指标和地理知识表达能力两方面进行评估分析。研究表明,本文构建的地理知识图谱在统计性能指标方面,与领域类知识图谱相比较为突出;在知识表达能力方面,在时间知识、空间知识、属性知识和演化知识方面表达完善,在状态知识和关系知识方面表达略有欠缺。研究表明,在地理知识的概念化过程中,当前知识表达的基础描述逻辑语言ALC,不足以表达变化和关系类的地理知识,经过扩展的描述逻辑算子集合(SHIQ)能够支撑地理知识的形式化表达;在地理信息的获取方面,深度信念网络模型对地理实体名称识别具有有效性,基于深度学习的地理信息获取方法具有广泛应用前景;在地理知识的生成和存储方面,图数据库不能完全适应地理知识的存储,基于地理知识概念模型的数据库设计值得进一步探索;在地理知识的评价与验证方面,当前地理知识评价缺乏完整的方法论,地理知识评价体系值得在未来研究工作中探索和构建。
其他文献
随着医学成像技术的发展,医学图像已成为医生诊断疾病的重要手段,因此,为了减轻医生的负担并降低疾病的诊断难度,对图像的自动处理和分析具有非常重要的意义。传统的医学图像处理算法严重依赖于人工设计的特征,而这类特征的设计比较复杂,加上模型的泛化能力比较差,无法适应实际应用中由于成像条件和个体原因导致的图像间差异很大的情况。近年来,随着深度学习在计算机视觉、语音处理等领域取得的突破性的进展,越来越多的研究
目的对改良Limberg Dufourmentel菱形转移皮瓣成形术治在疗骶骨尾部藏毛窦的疗效进行观察。方法随机抽取2013年5月~2016年5月之间146例我院晚期肿瘤患者,根据随机数字表法,分
阐发研究是与影响研究和平行研究并行的一种研究方法,阐发研究与“中国学派”彼此依存、关联紧密。阐发研究似已脱出阐释学的学术语境,成为比较文学“中国学派”特有的批评方
长期以来,人们对于文学一直存在着误解,认为文学就是风花雪月。其实,文学是人学,是生活的一面镜子,表现的内容涉及最为基本的社会价值关系。文学作为一种特定的语言符号,是特
基于黄帝内经教学与其术语研究现状,以中医经典的科学传承为导向,引入中医术语规范化方面内容,为梳理中医经典古籍理论内涵及术语研究提供新思路。建议将术语规范化应用于黄帝内
【正】 小学生学习历史,是一种启蒙教育。教学方法可以多种多样,对不同的班级,不同的教材,不同的阶段,采取不同的方法。 小学生学习历史,对能力的培养方面,有记忆能力、复述
在社会管理创新背景下,新型农村社区社会环境与社会管理主客体都发生了很大变化,形成了多样化的治理新需求:利益诉求增多、民生诉求凸显、民主诉求增强。治理新需求的产生对
20世纪80年代以来,随着国内对美国华裔文学研究的兴起和深入,汤亭亭很快成为中国外国文学研究界关注的焦点。30多年来,全国共发表各类研究文章百余篇,从诸多角度探讨汤亭亭及
<正>在小学数学教学过程中,我们常有这样的体会,同一类型题反复出错,即便采用"题海战术"也难以避开同样的思维误区,降低了学习效率。新时期教学理念对数学教学提出了更高的要
根椐高等级公路勘测的要求,研究基于GPS—RTK技术的公路定测方法和应注意的技术问题,改革传统的公路勘测设计模式,提高了公路勘测设计工作的效率和数字化水平。