基于自动机分词的中文地址地理编码技术研究与实现

来源 :中国科学院地理科学与资源研究所 | 被引量 : 0次 | 上传用户:fengxun1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地理信息系统(GIS)是信息技术(IT)的重要组成部分,随着GIS社会化的进程,越来越多的普通用户开始使用丰富的地理信息服务(Geography Information Services)。现实世界和传统的信息系统中,人们通常使用一段文字来表达目标位置,然而,计算机无法通过文字叙述直接找到目标位置,无法直接获取其具体的经纬度坐标。随着GIS在人们的生产生活中扮演着越来越重要的作用,各方对于根据文本地址快速、准确的查找其地理坐标的需求日益明显。地址地理编码是指将地址映射成地理坐标的过程,提供了一种把描述成文本地址的地理位置信息转换成地理坐标的方式。地址地理编码可以利用地址数据库来建立地址与地理坐标空间的对应关系,主要采用结构化的数据模型,将各种兴趣事件或者现象的文本地址进行匹配。本文在前人研究基础上,对中文地址地理编码的流程和方法进行了总结和归纳,并在一些关键技术上进行了改良,以国产GIS软件平台SuperMap GIS为例,研究了中文地址地理编码在GIS软件平台中的实现方法并进行了相应的试验。主要内容如下:   1.对中文地址进行了研究,在最小地址要素的基础上,总结出了层级地址模型,并构建了中文地址词典,为中文地址分词提供了条件。提出了使用自动机来对中文地址进行描述的方法,该方法与地址规则表描述的地址是等价的,但是比规则表的方法描述更加简单、效率更高。   2.提出了基于中文地址自动机的中文地址分词算法。该算法在正向最大匹配基础上,根据地址的层次关系和自动机来检测中文地址分词的有效性,该算法使得中文地址分词的效率得到了提高。   3.在分词基础上,通过对中文地址建立地址索引(双Hash索引)而快速检索并获取候选地址,将候选地址的各个地址要素进行比对和评价,最终选择最优的匹配地址。针对那些无法全匹配的地址,引入动态分段技术,归纳总结出了基于点、基于线、基于点和线联合等三类地址插值方法。   4.基于本文介绍的方法,在国产GIS平台软件中实现了中文地址地理编码功能。
其他文献
随着世界经济的不断发展,在全球范围内的碳排放量也在逐年剧增,由此而引发的气候问题越来越受到国际社会的关注,节能减排已成为国际社会在应对气候问题上达成的共识。城市是人类
全球最大的专注于工业自动化与信息化的公司罗克韦尔自动化及其合作伙伴联盟成员(PartnerNetworkTM)共同举办的“罗克韦尔自动化产品展示”活动于3月19日在北京隆重开幕。在
地学信息图谱是反映地物某种时空规律的信息处理与显示方法。它是由著名地理学家陈述彭院士首次提出,地学信息图谱可在时间演化过程的系统中表达空间差异。它的这种特性正好弥
生态承载力反映了人类活动与生态系统功能结构间的协调程度,决定着一个区域社会经济发展的速度和规模,是当前国内外可持续发展定量研究的前沿和热点。 基于对生态足迹模型的
高空间分辨率卫星遥感图像的出现,使得地物类型的精细识别成为可能。与传统基于像元的影像分析方法相比较,面向对象的图像分析方法可以更清晰的表达高空间分辨率遥感图像在地物
江泽民同志在即将进入新世纪之际的一个重要批示中强调指出:“加强和改进新形势下党的思想政治工作,是全党的一件大事,也是宣传思想政治工作的重中之重。”我们感到,进一步
学位
2017年1月10日,澳大利反倾销委员会发布第2017/03号公告称,应新出口商Foshan Shunde Beijiao Jiawei Aluminium Factory于2016年12月14日提交的申请,决定对进口自中国的铝型
随着全球气候变化的加剧,作为气候敏感指示器的冰川响应十分明显,冰川普遍退缩,与之相对应的河流的径流量随上游冰川覆盖度的不同也发生了明显变化.以乌源1号冰川为依托,沿中国境
随着经济的迅速发展,对土地资源的需求量越来越大。建设哈大齐工业走廊,是黑龙江省立足于发挥哈大齐地区经济、科技、人才实力雄厚,重度盐碱地等未利用土地资源丰富等优势,加快老