论文部分内容阅读
利用互联网进行地理基础数据采集、分析与服务,突破了原有测绘专业部门与服务模式的制约,已成为当前研究热点。从互联网上获取地名数据,可以有效减少地名数据采集的高额开销,对建立全球地名数据库具有重要意义。但是,开源地名数据存在质量参差不齐、规范不一致、数据冗余等问题,需要进行多源地名数据融合处理才能获得高质量地名数据。本文从多源地名数据获取与一致性处理、多源地名数据匹配融合等几个方面进行研究,研究内容主要有以下几点:1、分析了地名数据融合处理相关技术的研究现状,其中重点分析了地名数据匹配和融合的研究现状及存在问题。论述了关于多源地名数据融合处理中涉及到的相关概念、基础理论和内容方法,并进行了多源地名数据融合处理的技术框架设计。2、在多源地名数据获取方面,设计了广度主题优先网络爬虫进行地名数据自动获取。在多源地名数据一致性处理方面,分析了多源地名数据的不一致性差异,并在多源地名数据进行数据清洗的基础上,实现了分类分级、类型编码、数据格式、不同语种地名和空间基准的一致性处理。在多源地名数据质量评价方面,分析并确定了质量评价主要维度,采用了基于量化加权平均的模糊综合评价方法对来自各数据源的地名数据集进行质量评价。3、在多源地名数据匹配融合处理过程中,在分析了目前常见的全球地名数据库的表结构基础上设计了数据存储模型。基于常用的专名相似度和几何相似度匹配方法基础上,提出了基于专名差异最小化的专名相似度匹配优化方法和基于缓冲区的邻近相似度匹配优化方法。针对专名相似度和几何相似度单一匹配方法的不足,提出了顾及专名相似度的K邻近相似度复合匹配方法和基于面域的专名相似度匹配方法。最后,在匹配的基础上,根据多源地名数据实际情况提出了位置信息、专名信息和其它属性信息的融合策略。4、开发了多源地名数据融合处理原型系统,利用菲律宾样区地名数据为例,实现了多源地名数据的匹配融合,并对处理结果进行了统计和可视化效果对比。