基于最大熵海量网络POI数据判重技术的研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:runnerups
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的发展,基于位置的服务极大的提高了人们出行的方便,基于位置的服务也成为工业界和学术界的研究热点;与此同时,基于位置服务的内容和应用模式也随着人们获取信息的需求不断的变化。基于位置的服务蕴涵着巨大的商业价值,已经成为各大互联网厂家相互争夺的阵地。兴趣点(POI)是位置服务平台的一种基础数据元素,其质量直接影响到位置服务的质量。然而,POI数据来源广泛,数据格式多样,有效信息缺失或错误等问题,给POI数据的融合更新带来了很大的困难。有效的更新POI数据库,使其能更好的对应不断变化地理实体,既是现实的客观需求,也可以更好的满足用户多样化的信息需求,推动各厂商位置服务向着内容丰富、服务精准和便捷高效发展。针对互联网上多源异构POI数据的融合的问题,本文所做的工作主要包括以下几个方面的内容:  (1)网络POI数据的收集和预处理。首先分析各大基于位置服务网站的技术结构,利用python脚本设计爬虫算法,抽取相关网络平台的POI数据,对数据进行清洗,将不同格式的数据统一到标准格式下,尤其是将不同坐标系下的空间属性,转换到同一的经纬度坐标下。  (2)基于POI数据空间和属性的约束关系,针对海量POI数量难以在有效的时间内处理的问题,设计一种哈希索引方法,这种方法使得加入新POI数据的比较过程,局限在一个较小的POI数据集合内,使得数据的融合判重过程得以顺利进行。  (3)POI各属性的相似度分级判定规则,POI的比较是综合比较各属性的结果,每个属性的相同或不相同,难以客观反映现实,通过细分各相似度的等级,使其更加准确,为最大熵模型的输入输入创造条件。  (4)基于最大熵模型的判重方法,分别比较一对POI的经纬度,名称和地址的相似度,利用人工确定样本训练最大熵模型,将POI层输出的相似度等级作为特征输入,利用最大熵模型得到一个综合的相似度,然后取一个阀值来衡量一对POI点是否重复。实验结果表明,本文提出的技术可以在少量人工的干预下,极大的提高网络POI数据的融合更新效率,并且具有较低误判率,能够提高POI数据的质量。
其他文献
业务流程建模是企业运用工作流技术构建企业运营系统的一个重要环节。当前,企业所处的经营环境比以往更加复杂,市场环境瞬息万变,企业面临着要应对经营环境改变的压力。企业
诸多全基因组测序项目结果表明,哺乳动物的基因组中存在非编码RNA的转录。进一步的研究表明,这些非编码RNA在很多生命活动过程中起着重要的作用。近年来关于非编码RNA的研究主
随着人类基因组计划的顺利完成,遗传疾病致病基因的预测成为生物信息学中一个重要的研究课题。致病基因的预测对于生物实验的实施,改善医疗护理延长病人存活周期和药物靶标的发
一幅图像常常既包含潜在的理想结构,也包含一些随机噪声或人为干扰。前者是要检测和描述的,而后者是希望去除的。由于图像预处理的结果直接关系到后续的图像处理效果,如图像
目前互联网技术的发展提高了互联网的业务实现能力,而Deep Web的出现使得互联网更易用且更有价值,用户填写表单、提交请求即可从Deep Web后台数据库中获取结构化的有效信息。但
传统风格的卡通动画具有很强的表现力和非常丰富的艺术内涵,在今天仍然深受人们的喜爱,有着非常广阔的市场前景。但传统风格的卡通动画制作主要依靠动画师用手工方式绘制大量的
三维建模是当前计算机视觉、虚拟现实技术以及图形学领域的重要研究课题之一,如何实现三维模型的快速重建是现如今研究的热门课题。由于三维人体模型广泛应用于3D电影、3D游戏
由于计算机网络的发展以及恶意程序编码水平的提高,传统的恶意程序检测技术的不足已经越来越明显,很难满足人们对信息安全的需求。基于行为的恶意程序检测技术是利用恶意程序的
无线传感器网络是一种融合了信息感知、信息处理和信息传输等功能为一体的网络。无线传感器网络中的数据传输机制负责将传感器节点采集到的数据传送到汇聚节点。由于无线传感
学位