论文部分内容阅读
地理信息系统(GIS)是信息技术(IT)的重要组成部分,随着GIS社会化的进程,越来越多的普通用户开始使用丰富的地理信息服务(Geography Information Services)。现实世界和传统的信息系统中,人们通常使用一段文字来表达目标位置,然而,计算机无法通过文字叙述直接找到目标位置,无法直接获取其具体的经纬度坐标。随着GIS在人们的生产生活中扮演着越来越重要的作用,各方对于根据文本地址快速、准确的查找其地理坐标的需求日益明显。地址地理编码是指将地址映射成地理坐标的过程,提供了一种把描述成文本地址的地理位置信息转换成地理坐标的方式。地址地理编码可以利用地址数据库来建立地址与地理坐标空间的对应关系,主要采用结构化的数据模型,将各种兴趣事件或者现象的文本地址进行匹配。本文在前人研究基础上,对中文地址地理编码的流程和方法进行了总结和归纳,并在一些关键技术上进行了改良,以国产GIS软件平台SuperMap GIS为例,研究了中文地址地理编码在GIS软件平台中的实现方法并进行了相应的试验。主要内容如下:
1.对中文地址进行了研究,在最小地址要素的基础上,总结出了层级地址模型,并构建了中文地址词典,为中文地址分词提供了条件。提出了使用自动机来对中文地址进行描述的方法,该方法与地址规则表描述的地址是等价的,但是比规则表的方法描述更加简单、效率更高。
2.提出了基于中文地址自动机的中文地址分词算法。该算法在正向最大匹配基础上,根据地址的层次关系和自动机来检测中文地址分词的有效性,该算法使得中文地址分词的效率得到了提高。
3.在分词基础上,通过对中文地址建立地址索引(双Hash索引)而快速检索并获取候选地址,将候选地址的各个地址要素进行比对和评价,最终选择最优的匹配地址。针对那些无法全匹配的地址,引入动态分段技术,归纳总结出了基于点、基于线、基于点和线联合等三类地址插值方法。
4.基于本文介绍的方法,在国产GIS平台软件中实现了中文地址地理编码功能。