多源异构POI数据清洗及融合方法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:a3799222999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着位置服务LBS(Location Based Service)的蓬勃发展和电子地图的广泛应用,作为电子地图底层数据支撑的POI(Point Of Interest,兴趣点)数据成为我们日常生活的一部分。很多研究者致力于通过研究POI数据信息来挖掘人们的出行轨迹、城市功能区识别、城市热点区域等,来提高我们的生活服务质量或为管理者提供决策。然而,数据挖掘的前提是具有丰富的高质量的数据,否则就会出现“数据量大、信息量少”的情况影响挖掘结果。由于来源于不同网站的POI数据存在很多数据质量问题将会对挖掘结果产生影响,因此,如何通过数据清洗和融合技术来提高POI数据质量一直是受研究者们关注的课题。通过文本分类预测对POI类别不明确的清洗,传统的FastText算法在处理中文短文本分类问题上效率不高。针对多源异构POI分类问题,传统的基于距离类别的算法时间复杂度比较大,并且对于非空间属性相似度的计算只考虑了类别。随着互联网上共享数据的开放及爬虫技术的发展,为我们获取POI数据提供很大的便利,在这样的背景下,本文针对多源异构POI数据的清洗和融合技术进行研究。本文首先,研究了常用的POI数据的采集方式,并通过基于Scrapy框架的爬虫技术采集楼盘网站和微博签到网站的POI数据,通过ArcGIS软件提取昆明地图底层的POI数据作为实验数据,分析了多源异构POI数据的特征;接着,分析了多源异构POI数据普遍存在的地理坐标参考系不一致、重复记录、缺失值和不一致数据等数据质量问题以及相应的数据清洗算法,针对POI类别不明确的清洗方法,提出了TI-FastText(TF-IDF,FastText)分类模型的改进算法并通过对比实验验证了算法的有效性;最后,分析了常用的POI融合算法并对一些经典的POI融合算法作简要介绍,在借鉴现有研究成果的基础上,提出了基于两层聚类的POI融合的改进算法TLCB(Two-level Clustering-based)算法,该算法结合了空间属性和非空间属性的两层聚类,通过组织不同重合度的对比实验来验证了文本提出的TLCB算法在处理POI融合问题上具有较好的表现效果。
其他文献
【正】 在番禺南沙大酒店咖啡厅的一片竹林前,书卷气很重的霍启刚眉宇间流露英气,气定神闲地向笔者道出南沙发展的来龙去脉。上辈们的南沙情
目的:1.探讨维持性血液透析(Maintenance hemodialysis,MHD)患者透析低血压(Intradialytic hypotension,IDH)与微炎症状态(Microinflammatory state)之间的关系。2.观察白芍
《妈妈宝宝》杂志11月起,推出iPad版电子书与iPhone手机移动式电子杂志。《妈妈宝宝》杂志社长邓懿贞表示,数字化发展主要是迎合杂志的发展趋势,但电子杂志的推出对于平面销售没
在各种国际书展和日常的联络、谈判的忙碌与疲倦中,我见识了全球精品书和海内外文化精英的风采,一路走来,一路探寻,一路发现,一路欣喜,领略了书业无限美丽的景致。收获5年来版权贸
我国自十八大提出“海洋强国”重大战略后,始终致力于海洋建设。无居民海岛作为一项重要的海洋资源,关乎着我国的国家安全、领土完整和经济发展。辽宁省作为我国的沿海大省,
随着社会的进步,人们生活水平的提高,旅游模式也发生了变化,人们旅游目的从开始的“观赏式”风景旅游向地域特色浓厚、富有文化内涵的“体验式”度假旅游倾斜,这种变化在一定
本刊讯 10月24日,人民出版社携手中关村图书大厦在京举办了著名决策咨询专家王力主题讲座暨新书签售会。
生活在科技迅速发展的21世纪,人类正在用智慧创新科技,同时科技的发展为我们带来了人工智能。风险与利益并存,在利用人工智能的过程中带来的一些伦理困惑正冲击着人们的思想和认
地点和空间同时决定了建筑作为固定工程形态的特质,赋予了建筑根深蒂固的地域性特点,建筑的地域性是建筑与生俱来的本体属性之一,它直接影响和决定着建筑历史发展的整个过程
工程设备和结构中往往应用大量的钢结构作为主承受力的构件,保证这些构件有足够的强度和刚度是基本的要求.针对一工程结构件的失效进行了分析,并提出了改进措施,既对现有在用