论文部分内容阅读
随着地理信息系统技术的不断发展和广泛应用,人们对空间数据的需求不断增加,并且对空间数据的现势性和质量的要求也越来越高。为了适应这一需求,许多部门纷纷采集了大量的空间数据,并建立了具有各自应用目的的空间数据库(地图数据库)。为了保持空间数据的现势性,需要定期对已有的矢量空间数据库进行局部更新,这时就需要基于实体匹配技术来分析矢量空间数据库中的实体变化情况并进行相关更新操作。而同一地区的矢量空间数据往往被多个部门重复采集,这些由不同部门采集的数据在几何位置、几何形状、拓扑结构、几何精度、属性详细程度、编码方案、语义表达以及实体空间关系等方面不尽相同,使得数据的集成与共享非常困难,为了有效地利用这些存在差异的数据、降低数据获取费用、加快数据更新速度、改善数据质量等,往往需要对跨部门、跨行业、跨区域、跨时间阶段的各种比例尺的空间数据进行集成与信息融合,得到精度较高、属性信息更丰富、地图范围更大的高质量的空间数据,在这种情况下需要进行不同地图数据库之间的实体匹配,建立实体层次的连接,然后在此基础上进行矢量空间数据融合处理,解决数据之间的几何和语义的不一致性问题。本文对矢量空间数据的实体匹配方法进行了深入系统的研究,并研究了实体匹配技术在数据更新、多源数据的不一致性处理中的应用,给出了合理可行的基于实体匹配的数据更新方法以及基于实体匹配的不一致性处理方法。主要研究内容、研究成果和作者的创新点概括如下:(1)总结了实体匹配方法国内外研究的现状,指出了实体匹配研究中还有待于进一步解决的关键问题。(2)介绍了与论文研究密切相关的术语、基本概念及相关理论;阐述了实体匹配的一般流程;从数据的几何类型、数据源、比例尺、时相、数据覆盖程度等角度对实体匹配研究的范畴进行了定义;对实体匹配进行了分类并对实体匹配的难点进行了分析;研究了实体匹配质量评价方法。研究表明实体匹配相似度指标的选取与匹配的情况相关,不同的数据情况,应采用不同的匹配方法和策略,而不必追求一种统一的实体匹配方法来解决所有的匹配问题。(3)针对点实体匹配:给出了各种字段类型值的属性相似度计算方法;对距离相互最近的匹配方法进行了实验,效果良好;针对数据集整体呈现为强覆盖、局部密集数据弱覆盖的匹配情况,本文首次引入了点实体环境相似度概念并给出了其计算方法,提出了基于距离、属性与环境等多个相似特征组合的匹配方法,明显地提高了点实体的匹配质量。(4)针对线实体的匹配:在线实体相似度研究方面,根据两个线实体的缓冲区重叠面积的一些良好的特性,提出了基于缓冲区重叠面积的距离相似度指标,相对以往的距离计算方法具有计算量和复杂度小、且效果明显的特点;提出了基于折线段方位编码的形状相似度指标,该相似度具有平移、旋转、比例不变性、可以防实体细微的抖动的优点,而且直观、计算简单;给出了线实体拓扑相似度计算方法;首次提出了线实体环境相似度并给出了计算方法,增强了识别同名实体的能力,提高了实体匹配质量。提出了基于缓冲区分区的候选集搜索算法,该方法有效地排除了一些不可能匹配的目标实体,提高了实体匹配处理效率。提出了基于长度、距离、形状、拓扑、环境、属性等多个特征组合的匹配方法,针对多尺度线状数据的匹配,采用了基于约束的位置相关匹配方法,匹配时均采用了双向匹配与聚类合并策略,有效地解决了一对多、多对多的匹配问题。相比以往的线实体匹配方法,本文提出的方法具有计算简单、处理效率高、匹配质量好的优势。(5)针对面实体的匹配:在面实体相似度研究方面,给出基于面实体重心距离的相似度及拓扑相似度计算方法,提出了融合实体面积与重叠面积的形状相似度及面实体环境相似度并给出了计算方法,通过综合使用各种相似度指标,增强了相似度的辨别能力。提出了基于实体内部相交关系的面实体候选集搜索算法,该方法相对其它方法具有快速、目标实体定位准确等优点,提高了实体匹配处理效率。提出了基于位置且重心距离、实体面积、重叠面积等多个特征组合的匹配方法,匹配时采用双向匹配与聚类合并策略,有效地解决了的一对多、多对多的匹配难点问题。相比以往的面实体匹配方法,本文提出的方法具有计算简单、处理效率高、匹配质量好的优势。(6)研究了实体匹配技术在数据更新中的应用,本文提出了基于实体匹配的数据更新方法,设计了一套顾及无损原始信息的实体匹配、变化检测与更新处理流程;并建立了适用于实体匹配、变化检测与更新处理的空间数据模型;利用基于实体内部相交关系的空间实体搜索方法,大大提高了空间分析的效率,使得在数据集之间缺乏实体映射关系的情况下通过空间分析建立实体映射关系的方法成为可能;提出的基于权重的几何相似性计算模型,解决了复杂情况下的匹配问题,效果较好,适合在矢量空间数据库更新中应用。(7)研究了基于实体匹配的空间数据不一致性处理问题。将不同来源的同名实体之间的不一致性改正分为两类:一对一匹配的不一致性改正和非一对一匹配的不一致性改正。在实体匹配的基础上,研究了实体之间几何位置、形状及属性的不一致性改正方法。对于同名点之间的不一致性改正,采用点位算术平均值或加权平均值获得改正点;对于同一线要素类之间的不一致性改正,提出了基于结点路线长度比进行结点投影取均值的方法;对于同一面要素类之间的不一致性改正,对于无明显转折点的面状实体,提出了带约束条件的最邻近点取均值法进行改正,对于有明显转折点的面状实体,提出了先对同名点取均值进行改正,然后对其它点采用最邻近点取均值法进行改正的策略;采用基于属性转换方向和转换操作的方法对非多对多匹配情况下的属性不一致性进行了改正。通过实验发现,本文所提出的改正方法是可行的,并且要优于现有的算法。