论文部分内容阅读
随着位置服务LBS(Location Based Service)的蓬勃发展和电子地图的广泛应用,作为电子地图底层数据支撑的POI(Point Of Interest,兴趣点)数据成为我们日常生活的一部分。很多研究者致力于通过研究POI数据信息来挖掘人们的出行轨迹、城市功能区识别、城市热点区域等,来提高我们的生活服务质量或为管理者提供决策。然而,数据挖掘的前提是具有丰富的高质量的数据,否则就会出现“数据量大、信息量少”的情况影响挖掘结果。由于来源于不同网站的POI数据存在很多数据质量问题将会对挖掘结果产生影响,因此,如何通过数据清洗和融合技术来提高POI数据质量一直是受研究者们关注的课题。通过文本分类预测对POI类别不明确的清洗,传统的FastText算法在处理中文短文本分类问题上效率不高。针对多源异构POI分类问题,传统的基于距离类别的算法时间复杂度比较大,并且对于非空间属性相似度的计算只考虑了类别。随着互联网上共享数据的开放及爬虫技术的发展,为我们获取POI数据提供很大的便利,在这样的背景下,本文针对多源异构POI数据的清洗和融合技术进行研究。本文首先,研究了常用的POI数据的采集方式,并通过基于Scrapy框架的爬虫技术采集楼盘网站和微博签到网站的POI数据,通过ArcGIS软件提取昆明地图底层的POI数据作为实验数据,分析了多源异构POI数据的特征;接着,分析了多源异构POI数据普遍存在的地理坐标参考系不一致、重复记录、缺失值和不一致数据等数据质量问题以及相应的数据清洗算法,针对POI类别不明确的清洗方法,提出了TI-FastText(TF-IDF,FastText)分类模型的改进算法并通过对比实验验证了算法的有效性;最后,分析了常用的POI融合算法并对一些经典的POI融合算法作简要介绍,在借鉴现有研究成果的基础上,提出了基于两层聚类的POI融合的改进算法TLCB(Two-level Clustering-based)算法,该算法结合了空间属性和非空间属性的两层聚类,通过组织不同重合度的对比实验来验证了文本提出的TLCB算法在处理POI融合问题上具有较好的表现效果。