论文部分内容阅读
随着移动互联网的发展,基于位置的服务极大的提高了人们出行的方便,基于位置的服务也成为工业界和学术界的研究热点;与此同时,基于位置服务的内容和应用模式也随着人们获取信息的需求不断的变化。基于位置的服务蕴涵着巨大的商业价值,已经成为各大互联网厂家相互争夺的阵地。兴趣点(POI)是位置服务平台的一种基础数据元素,其质量直接影响到位置服务的质量。然而,POI数据来源广泛,数据格式多样,有效信息缺失或错误等问题,给POI数据的融合更新带来了很大的困难。有效的更新POI数据库,使其能更好的对应不断变化地理实体,既是现实的客观需求,也可以更好的满足用户多样化的信息需求,推动各厂商位置服务向着内容丰富、服务精准和便捷高效发展。针对互联网上多源异构POI数据的融合的问题,本文所做的工作主要包括以下几个方面的内容: (1)网络POI数据的收集和预处理。首先分析各大基于位置服务网站的技术结构,利用python脚本设计爬虫算法,抽取相关网络平台的POI数据,对数据进行清洗,将不同格式的数据统一到标准格式下,尤其是将不同坐标系下的空间属性,转换到同一的经纬度坐标下。 (2)基于POI数据空间和属性的约束关系,针对海量POI数量难以在有效的时间内处理的问题,设计一种哈希索引方法,这种方法使得加入新POI数据的比较过程,局限在一个较小的POI数据集合内,使得数据的融合判重过程得以顺利进行。 (3)POI各属性的相似度分级判定规则,POI的比较是综合比较各属性的结果,每个属性的相同或不相同,难以客观反映现实,通过细分各相似度的等级,使其更加准确,为最大熵模型的输入输入创造条件。 (4)基于最大熵模型的判重方法,分别比较一对POI的经纬度,名称和地址的相似度,利用人工确定样本训练最大熵模型,将POI层输出的相似度等级作为特征输入,利用最大熵模型得到一个综合的相似度,然后取一个阀值来衡量一对POI点是否重复。实验结果表明,本文提出的技术可以在少量人工的干预下,极大的提高网络POI数据的融合更新效率,并且具有较低误判率,能够提高POI数据的质量。