基于众源POI匹配与融合的实体库构建方法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:zm850311
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为地理空间信息的重要组成部分,POI数据是极其重要的一种基础性资源,在众多领域中都有着广泛的应用价值与模式,对面向用户的位置服务也有着重要意义。随着移动互联网和众源技术的不断发展,网络上开始涌现出大量的众源POI数据资源,人们对地理信息位置服务的需求也在不断增加。将拥有体量大、时势性强、信息丰富、质量不确定等特性的众源数据进行匹配融合建库,能够使众源POI数据的位置信息与属性信息形成互补,为地理信息位置服务提供更为丰富的数据。然而,不同来源的POI数据在几何和语义表达方面存在差异,信息完善度和丰富程度也有所不同,同一POI实体可能具有不同的名称表达、几何位置或分类体系,缺乏统一的表达模型。因此,本文将以众源POI数据为切入点,探索众源异构POI数据的精确匹配算法,研究基于匹配POI点对的数据融合规则,构建众源POI数据的统一表达模型,并采用万维网联盟的通用溯源模型记录POI融合的溯源信息,增强融合实体库的可信度。首先,针对众源POI数据的匹配问题,探索相似度特征选取与计算方法、基于机器学习的特征组合方式和基于图论算法的精准匹配方法。其中,相似度特征的选取是POI匹配的基础,不同的相似度特征组合往往导致不同的匹配精度与准确性。本文基于POI数据的空间位置、分类体系和名称属性的特征选取了五种相似度度量参与匹配计算,以机器学习模型取代基于人工分配权重的多相似度特征加权计算步骤,通过图论算法剔除混淆误匹配点对。通过对比多个机器学习模型和图论算法,最终提出了结合多层感知器和Kuhn-Munkres算法(KM算法)的POI匹配方法,能够有效辨别一对一的POI匹配点对,实现相似点对的精准匹配。其次,研究多源POI数据的融合方法,通过对异构POI数据存在的差异进行分析总结,将众源数据中的冲突归纳划分为命名冲突、结构冲突与属性冲突三类。结合数据集中POI数据的属性丰富程度以及属性特征,着重探讨了属性冲突的解决方法,提出三种解决冲突的策略:冲突忽略策略、冲突避免策略与冲突消解策略,并以此构建了众源POI数据的属性融合规则,对属性融合过程中的属性值取舍进行了统一,有效避免了POI数据出现属性冗余重复、关键属性值缺失等现象。最后,在实体库的构建方面,基于众源POI数据的空间语义、核心类别与基本属性等特性构建相应的词表,使用关系表达语句来对实体与属性值之间的关系进行描述,构建了异构POI数据的统一语义表达模型,该模型涵盖了POI实体数据的各方特性。并结合万维网联盟的PROV-DM溯源模型在地理信息领域中的应用模式,对众源POI数据的融合过程进行了溯源信息的结构化记录表达,实现了基于众源POI数据匹配与融合的溯源感知的实体库构建。
其他文献
辅酶A(Coenzyme A,Co A)在多种细胞功能和代谢通路中发挥着至关重要的作用,准确识别Co A相关蛋白(Coenzyme A-associated proteins,CAP)有利于深入理解酰基转移、羧酸代谢、
随着晶体管研制水平到达纳米尺寸,电路可靠性问题愈发严重,负偏置温度不稳定性(Negative Bias Temperature Instability,NBTI)导致的集成电路功能退化成为其中最主要原因。NBTI效应对电路的影响主要表现为使晶体管阈值电压发生不可控变化,会极高概率增加电路的时间延迟和降低晶体管的性能。另外,电路板零件的焊接过程中,可能会出现例如焊接漏焊和错误焊接等缺陷,就可能影响到
贻贝仿生组织胶粘剂因其具有独特的湿态粘接性能而引起广泛关注,研究者通过将邻苯二酚基团引入高分子链段中,来获得突出的湿态粘结性能,但存在合成工艺复杂、合成过程中使用有机溶剂或所合成胶粘剂水溶性差等问题。此外,进一步改善湿态粘结强度和胶粘剂本身的生物功能特性仍是亟待解决的主要问题。本论文以左旋天冬氨酸(L-asp,L-aspartic acid)为原料,通过固相聚合的方法制备聚琥珀酰亚胺(PSI,po
在生命体中蛋白质是组成一切细胞和组织的重要成分,是生命活动的承担者。已有生物学家证明了蛋白质结构和功能的统一性,即生物功能相似的蛋白质在结构上也是相似的,并且蛋白质的生物功能最终由其三维空间结构决定。因此,研究蛋白质三维结构的相似性对于发掘蛋白质生物功能以及理解生命体发展规律均有重要意义。现有的相关研究主要是基于传统计算的方法来比较蛋白质三维结构,但大多数方法往往容易忽略一些有实际生物意义的特征量
城市快速路是城市道路的主动脉,承载了相当一部分道路交通需求,随着社会经济的快速发展,快速路的交通拥堵也日益严重,其出入口则成了主要的事故多发点。快速路出口预告标志是
含巯基的化合物如半胱氨酸(Cys),同型半胱氨酸(Hcy)以及谷胱甘肽(GSH)是生命体中非常重要的硫醇化合物,该类物质在维持生命活动过程中起着至关重要的作用,倍受很多科研工作者
海岸带是海洋与陆地的交界地带,拥有丰富的自然资源,但同时也是生态系统的脆弱区域。伴随着我国沿海地区的快速发展,海岸带出现了一系列的生态环境问题。因此,提高海岸带地区的环境监测能力和执法效率,对于保护我国海岸带的生态环境和保持经济的可持续发展具有重要的意义。当前对地观测技术日新月异,各种航空航天监测手段广泛应用在海岸带监测与执法方面。执法部门对于应用需求具有差异性,快速、准确的获取海岸带变化信息并制
安全风险评估通过对危险源可能导致的安全风险进行更加具体和细化的评估,提高员工危险源辨识能力及企业的安全风险评估管理水平,使企业面临的安全风险可控、能控和在控。本文依据国家电网公司最新编制的《供电企业安全风险评估规范》和《供电企业作业安全风险辨识防范手册》,研究、开发、设计了农村电网周期性安全风险评估管理系统。系统结合以往《危险源辨识与管理》的工作经验,与企业日常安全生产相结合,对企业安全风险进行周
睡眠呼吸暂停是最常见的睡眠障碍之一,其全球患者数量居高不下且与日俱增,患者面临多种心血管疾病,死亡率逐年升高。其诊断多数依赖于专业医生对多导睡眠图(PSG)的判读。需要患者在不同部位佩戴复杂设备并在医院睡眠中心中进行整晚睡眠监测,随后专业医生进行判读,该过程费时耗力,判读质量也因人而异。因此,本文基于生理信号(尤其是心电ECG信号)的睡眠呼吸暂停自动检测研究具有重要的意义,可用于辅助临床诊断以及治
随着国家对海洋蓝色经济和海洋生态环境的重视,合理利用和保护海洋资源变得尤为重要。近年来,海洋监测的技术和手段越来越多,水色遥感快速发展,成为监测海洋生态环境的重要手段,应用遥感手段弥补了传统调查的不足,可以实现长时序、大范围监测。海水中叶绿素a是海洋生态环境的重要指标,因此对叶绿素a浓度的长时序监测研究具有重要生态学意义。胶州湾是典型的半封闭型海湾,是青岛的母亲湾,研究其生态环境变化对合理利用湾内