论文部分内容阅读
“如何科学地表达、组织、存储地理知识?”一直以来就是地理学者所关注的核心科学问题。知识是人类对物质世界以及精神世界探索的结果总和,寄托着人类对智慧的象征。地理知识具有宽泛的概念边界,概念陈述、演化机理、约束关系等等,都属于地理知识的范畴。在当前互联、物联网、大数据和人工智能等高新信息技术环境下,亟需将这些相对孤立且关联复杂的地理知识进行有效地抽取和组织,形成高效、统一、互相联系的地理知识库。知识图谱就是一种知识组织方式,通过节点和节点间连接线揭示概念和概念之间关系。借助节点与关系形成的图结构网络,地理知识有望能够实现大规模数据中全部知识的表达、组织与关联。自然语言是人类最基本、最直接、最方便的知识表达方式。鉴于此,本文从地理学、语言学和计算机科学相结合的角度出发,围绕“知识表达模型、地理信息抽取、地理知识生成、知识图谱构建”的研究主线,较为系统地探讨自然语言驱动的地理知识图谱构建方法。主要研究内容与结论包括以下几个方面:(1)地理知识表达的概念模型与形式化从地理学的基本问题出发,提出了以地理实体为核心的地理知识表达概念模型。为实现当前计算环境中地理知识的可计算,本文从地理知识计算的底层逻辑出发,分析验证知识图谱表达地理知识症结;针对知识图谱逻辑层中描述逻辑的构造算子语义缺失这一问题,从包含、反向、传递和值限定四个方面,扩展知识图谱逻辑层中描述逻辑语言ALC的构造算子,突破知识图谱对地理知识中状态、演化和过程形式化表达的瓶颈,实现地理知识的形式化表达。(2)自然语言中地理实体名称的识别针对地理信息获取的核心要素——地理实体,主要突破自然语言中地理实体名称识别方法的性能。针对自然语言中地理实体的描述特点,提出了顾及上下文特征的词向量表达方法和基于深度信念网络的地理实体识别模型。实验结果表明,该模型与条件随机场模型的性能基本相当,但是识别结果存在显著的差异性和互补性。因此,将两种模型相结合,能够有效提升地理实体识别性能。在此基础上,结合自然语言中地理实体的描述特点,进行自然语言中地理实体的空间信息、时间信息、属性信息和关系信息抽取。(3)地理知识的生成与存储通过构建地理知识的三个表达层次(要素层、组合层和机理层),采用自底向上逐层关联的方法,提出地理实体的空间知识、时间知识、属性知识、状态知识、变化知识、关系知识及演化知识的生成方法。在分析图数据库结构与地理知识的概念模型存在差异的基础上,通过将概念模型进行映射的方法,解决形式化地理知识在图数据库中的存储问题。(4)地理知识图谱构建与实验验证分析以《中国大百科全书·中国地理》语料为实验数据构建地理知识图谱,并从统计性能指标和地理知识表达能力两方面进行评估分析。研究表明,本文构建的地理知识图谱在统计性能指标方面,与领域类知识图谱相比较为突出;在知识表达能力方面,在时间知识、空间知识、属性知识和演化知识方面表达完善,在状态知识和关系知识方面表达略有欠缺。研究表明,在地理知识的概念化过程中,当前知识表达的基础描述逻辑语言ALC,不足以表达变化和关系类的地理知识,经过扩展的描述逻辑算子集合(SHIQ)能够支撑地理知识的形式化表达;在地理信息的获取方面,深度信念网络模型对地理实体名称识别具有有效性,基于深度学习的地理信息获取方法具有广泛应用前景;在地理知识的生成和存储方面,图数据库不能完全适应地理知识的存储,基于地理知识概念模型的数据库设计值得进一步探索;在地理知识的评价与验证方面,当前地理知识评价缺乏完整的方法论,地理知识评价体系值得在未来研究工作中探索和构建。