论文部分内容阅读
地名作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。随着计算机技术的发展与移动互联网的普及,地名数据的采集与服务方式也发生了很大的变化。目前,不同国家、机构或者企业已经建立了各种类型的全球地名数据库,而且绝大多数提供互联网数据查询和共享服务,例如GeoNames、OpenStreetMap、GEONet Names Server等。然而,这些数据库在覆盖范围、数据形式、语种类型、数据内容等方面存在较大的差异,同时具有显著的优势互补特性。因此,如何利用这些开放的全球地名数据资源,构建覆盖范围和数据内容更加完整、丰富的全球地名数据库,成为当前地理信息资源挖掘与利用亟待解决的基础问题之一。鉴于此,本文拟通过构建顾及语义特征的地名相似度模型和面向多语种语言特征的地名索引,形成一种多源全球地名数据的融合与更新方法,有效提升全球地名数据库的完整性、准确性、可靠性、现势性。具体研究内容与成果主要包括以下几个方面:(1)顾及语义特征的地名相似度计算模型以 GeoNames、OpenStreetMap(OSM)、GEONet Names Server(GNS)、DIVA-GIS、Geographic Names Information System(GNIS)等为数据源,研究多源全球地名数据的获取和预处理方法。通过改进编辑距离算法和贪婪字符串匹配算法,构建了地名名称相似度计算模型;综合考虑空间距离、隶属行政区划等级和地名类型等特征,构建了地名空间相似度计算模型。在此基础上,构建了地名名称和空间特征相结合的地名相似度计算模型,有效解决了不同地名数据的一致性判断问题,实现了多源全球地名数据库的有机融合。(2)面向多语种语言特征的地名索引方法针对不同语种的表音和表意两种字符特征,采用language-detection语言检测库进行地名语种识别;分析英文地名的字母总数、字母部首数、单词总数和单词首字母编码等语言特征,研究了基于多维特征统计向量的索引组织方式,解决了表音型语种地名的索引建立问题;分析中文地名的相同字符、字符数量、字符位置等语言特征,研究了基于单个汉字的中文地名索引组织方式,解决了表意型语种地名的索引建立问题。(3)原型系统研发与实验验证分析以 GeoNames、OpenStreetMap(OSM)、GEONet Names Server(GNS)、DIVA-GIS、Geographic Names Information System(GNIS)等为核心数据源,并以 Global Administrative Areas(GADM)、世界行政区划网以及《21世纪世界地名录》为辅助数据源,构建了多语种全球地名数据库(共计2521余万条);研发了全球地名检索原型系统,实现了多语种全球地名的信息检索、地图和统计分析、共享接口等功能;采用查全率、查准率、效率等指标,对本文提出的地名语义相似度计算模型和索引组织方法进行了实验验证分析。