论文部分内容阅读
知识服务逐步成为地理信息系统新的价值目标。建立地理实体间丰富的语义关联,是保障知识流动和服务精准的关键技术之一。文本是知识传播的主要载体。近年来,随着互联网的普及,网络文本成为高效、实时的知识传播媒介。如何从网络文本中快速自动化获取信息成为业界关注的热点。而网络文本蕴含海量地理信息抽取,也成为新地理信息时代泛地理信息采集的新兴技术。 网络文本蕴含地理信息的抽取质量,在很大程度上取决于地理空间关系的抽取或推理结果。构建可靠、智能的地理实体关系抽取方法,有助于实现非结构化文本向结构化地理信息的转换,以提升地理知识的有效利用率,进而支持地理知识服务,帮助政府管理部门、科研工作者和社会公众更好地感知社会动态、获取地理相关知识,满足国民经济建设与社会发展对地理信息现势性和延展性要求。 百科平台是网络环境下集成与分享知识的有效途径。从海量的百科知识中智能抽取地理信息首先需要解决地理实体关系抽取问题。然而,当前基于百科平台抽取地理实体关系的研究存在如下不足:(1)地理实体关系抽取需要地理空间数据的支持。虽然存在丰富的数据源可提供大量地理空间数据,但是“语义异质性”问题导致互补数据间的关联丢失且冗余数据未被识别,严重阻碍了地理信息共享。地理空间数据缺乏一个从概念、属性到实例的集成对齐系统。(2)中文地理实体关系标注语料库的匮乏严重影响了关系抽取方法的模型训练效果。传统手工构建语料库的方法不仅耗时费力,而且难以保证规则的可靠性和完备性,极大影响了语料库的大规模和平衡性,无法保障开放式地理实体关系抽取过程中特征选择的时效性。需要提高地理实体关系标注语料库构建的自动化水平。(3)自然语言用字分散,中文等语言环境下词语之间没有分隔符,语义表达形式多样,增加了地理实体关系抽取的难度。同时,百科文本蕴含地理实体关系的分布异质性极强,掩盖了语言的真实规律,会影响到地理实体关系抽取方法的准确性。百科文本蕴含地理实体关系分布的“稀疏性”问题尚未得到关注。 本论文针对上述地理实体关系抽取面临的挑战,从地理知识服务的实际应用需求出发,依托国家高科技研究发展计划(863)重大项目课题“位置信息搜索与智能服务技术”(2012AA12A211)和国家自然科学基金重点项目“网络文本蕴含地理信息理解与知识图构建”(41631177),借鉴当前自然语言处理、机器学习、互联网空间信息搜索等领域的最新研究成果,以中文百科文本为数据基础,开展地理实体关系抽取方法的研究。论文的主要工作和创新点包括: (1)针对开放地理空间数据集不同类型的地理对象存在语义异质性问题,构建了地理空间数据对齐的集成框架。该框架利用多维信息度量空间和语义相似性,结合投票选举和协同增强策略,可一次完成概念、属性和实例的匹配,聚合多种相似性度量方法时避免了人工调参,降低了地理空间数据对齐任务对指定信息的依赖性,适用于信息分布失衡的数据对齐。 (2)针对地理实体关系语料库构建成本高昂的问题,基于回标技术提出了一种地理实体关系语料库的自动构建方法。该方法在获取种子关系元组时引入对齐的OpenSteetMap、Geonames和DBpedia,借助多源信息蕴含的丰富地理实体属性,大幅扩充了种子地理实体关系的类型和数量,缓解了百科信息框长尾效应对自动构建地理实体关系语料库的负面影响。 (3)针对地理实体关系抽取结果受限于语料库规模的问题,以自动生成的小规模地理实体关系语料为基础,基于bootstrapping技术提出了一种语料自扩充的地理实体关系抽取方法。该方法保证了特征统计结果的显著性,有利于成功筛选出更合适的特征,减少关系抽取过程中的干扰信息。同时,在缺乏大规模真值的情况下,采用bootstrapping技术实现了方法的定量化评价。 (4)针对地理实体关系分布稀疏的问题,提出了一种语境增强的地理实体关系抽取方法。该方法借助开放地理资源自动构建了细粒度地理实体类型表,结合同义词词典降低了词语分布的稀疏性,减少了地理实体关系抽取过程中的噪声信息。同时,该方法在特征选择过程中引入词语的词性、位置、长度和语境信息,多角度增强词语的区分能力,提高了地理实体关系识别的准确性。