多源全球地名数据融合与更新方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:wqcfirst
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地名作为不可或缺的基础地理信息和社会公共信息,是各类社会信息关联的重要桥梁,在国家和社会管理、经济发展、文化建设、国防外交等方面发挥着重要作用。随着计算机技术的发展与移动互联网的普及,地名数据的采集与服务方式也发生了很大的变化。目前,不同国家、机构或者企业已经建立了各种类型的全球地名数据库,而且绝大多数提供互联网数据查询和共享服务,例如GeoNames、OpenStreetMap、GEONet Names Server等。然而,这些数据库在覆盖范围、数据形式、语种类型、数据内容等方面存在较大的差异,同时具有显著的优势互补特性。因此,如何利用这些开放的全球地名数据资源,构建覆盖范围和数据内容更加完整、丰富的全球地名数据库,成为当前地理信息资源挖掘与利用亟待解决的基础问题之一。鉴于此,本文拟通过构建顾及语义特征的地名相似度模型和面向多语种语言特征的地名索引,形成一种多源全球地名数据的融合与更新方法,有效提升全球地名数据库的完整性、准确性、可靠性、现势性。具体研究内容与成果主要包括以下几个方面:(1)顾及语义特征的地名相似度计算模型以 GeoNames、OpenStreetMap(OSM)、GEONet Names Server(GNS)、DIVA-GIS、Geographic Names Information System(GNIS)等为数据源,研究多源全球地名数据的获取和预处理方法。通过改进编辑距离算法和贪婪字符串匹配算法,构建了地名名称相似度计算模型;综合考虑空间距离、隶属行政区划等级和地名类型等特征,构建了地名空间相似度计算模型。在此基础上,构建了地名名称和空间特征相结合的地名相似度计算模型,有效解决了不同地名数据的一致性判断问题,实现了多源全球地名数据库的有机融合。(2)面向多语种语言特征的地名索引方法针对不同语种的表音和表意两种字符特征,采用language-detection语言检测库进行地名语种识别;分析英文地名的字母总数、字母部首数、单词总数和单词首字母编码等语言特征,研究了基于多维特征统计向量的索引组织方式,解决了表音型语种地名的索引建立问题;分析中文地名的相同字符、字符数量、字符位置等语言特征,研究了基于单个汉字的中文地名索引组织方式,解决了表意型语种地名的索引建立问题。(3)原型系统研发与实验验证分析以 GeoNames、OpenStreetMap(OSM)、GEONet Names Server(GNS)、DIVA-GIS、Geographic Names Information System(GNIS)等为核心数据源,并以 Global Administrative Areas(GADM)、世界行政区划网以及《21世纪世界地名录》为辅助数据源,构建了多语种全球地名数据库(共计2521余万条);研发了全球地名检索原型系统,实现了多语种全球地名的信息检索、地图和统计分析、共享接口等功能;采用查全率、查准率、效率等指标,对本文提出的地名语义相似度计算模型和索引组织方法进行了实验验证分析。
其他文献
大豆疫霉根腐病、花叶病毒病和菌核病是危害大豆生产的主要病害,给世界大豆生产带来了巨大的经济损失。化学防治等手段并不能有效控制这三种病害的发生,培育抗多种病害的抗病
使用基于计算机视觉的方式进行路面病害检测时,图像中含有的车道线区域会对检测结果造成干扰,因此,研究如何高效地、自动地移除待检测图像中的车道线具有深远的意义。论文在
从环境保护和可持续发展的角度而言,镁合金近年来很受瞩目,人们把它视为可替代传统结构材料的具有巨大潜力的金属之一,因为其有很多优点,比如较高的比强度,低密度和良好的铸
“就地取材”、“家庭手工”是诸多传统服饰的制作模式,这套制作模式背后蕴含了当地人世代积累的丰富地方性生态知识。生活在亚热带喀斯特岩溶石山地区的白裤瑶,因为制作服饰
本文以鄂尔多斯盆地姬塬油田王盘山区块三叠系长8油层组为研究对象,在应用沉积旋回原理的基础上,根据电测曲线及其在岩性的明显特征K1标志层,将长8油层组细分为四个小层。结
设置钢筋加劲肋薄壁方钢管混凝土结构是指在普通钢管素混凝土的基础上,在钢管内部焊接十字钢筋加劲肋,并将钢管壁厚进一步减小,形成的一种新型钢-混凝土组合结构。此类结构形
近年来,有机-无机杂化钙钛矿材料(ABX3,A=Cs,CH3NH3,NH=CHNH3;B=Pb,Sn;X=Cl,Br,I)被应用于钙钛矿太阳能电池(Perovskite solar cells,PSCs),其认证效率可达22.1%。钙钛矿薄膜为钙
随着桂林高铁经济产业园以及桂林经开区的加入,桂林经济开始朝着工业复兴的道路前进。桂林高铁经济产业园全称叫粤桂黔滇高铁经济带合作试验区(桂林)广西园,是广东、广西、贵州、云南四省区共同提出,经国家发改委立项审批的项目,具有国家战略层面意义,旨在以高铁为依托,推动粤桂黔滇四省区的区域经济联动快速发展。园区内重大基础设施完善,桂林动车北客运站、桂林动车西客运站、桂林动车检测中心、桂林铁路货运站均在园区内
本文针对航空航天用铝锂合金在焊接时存在的气孔、接头软化等问题,通过在交流CMT的基础上加入高频脉冲电流,利用高频脉冲电流对熔池的搅拌作用来加速气孔逸出、细化晶粒,改善
随着矿井现代化的发展,计算机技术已日益广泛地应用于矿井通风系统模拟、网络解算、通风系统优化改造等通风的科学化管理中。矿并通风网络图作为矿井通风系统的抽象表达,为科