基于Spark的时空数据查询与分析关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yuxjmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着移动应用的普及、地理信息技术的不断发展,时空数据的数量急剧增长。时空数据具有增速快、数量大、结构复杂等特点,即使是性能极佳的单机计算设备也无法解决海量时空数据的查询困难、分析复杂等问题。新出现的Spark分布式计算平台虽然具备处理大数据的能力,但不提供对时空数据处理的直接支持。针对上述问题,本课题以Spark为计算引擎,深入研究时空数据的查询与分析关键技术,设计并实现了ST-Spark时空查询与分析系统。ST-Spark实现了范围查询、kNN查询、预测分析、时空聚类分析等功能。具有快速查询、有效分析的优点。论文的主要工作如下:(1)针对时空数据的非结构化、数量大等特点,以分布式NoSQL数据库Cassandra为存储引擎,设计了契合Spark计算模型的时空数据存储和网格索引模型。该模型实现了索引与数据分离,对同一个时空对象的轨迹记录能按照时间顺序存储在同一个节点中,保证了数据的局部性。(2)基于设计的存储与网格索引模型,提出了Spark上的时空范围查询与K邻近查询方法。通过Cassandra服务端过滤优化,解决了查询时空索引时粗过滤效率低下的问题。提出“网格外扩法”,确定至少包含K个时空对象的网格集合,提高了K邻近查询效率。(3)对时空轨迹数据进行多项式拟合、线性回归预测分析。为提高预测正确性,设计了基于滑动窗的多项式拟合时空轨迹预测分析方法。结合范围查询,研究和实现了基于Spark的预测性时空范围查询方法。(4)基于已有的聚类分析算法,进行三维拓展,创新地提出Spark上“均匀划分,本地聚簇,全局合并”的ST-DBSCAN算法。考虑到最大化并行计算优势,该算法按照数量均匀划分了时空数据,根据算法参数进行分区区域外扩,并行执行分区时空聚类方法,最后依据外扩分区数据点的聚簇属性进行全局合并与重新标记。针对ST-Spark系统,本文搭建了集群环境,基于T-Drive北京出租车轨迹和GDELT事件等数据,本文进行查询性能测试、预测分析准确性评估、时空聚类验证等实验。实验结果表明,在查询性能方面,ST-Spark优于同类系统。在时空分析方面,ST-Spark的预测分析准确率高、误差小,ST-DBSCAN分析快速、有效。
其他文献
<正> 稠油在国外文献中称重质原油(Heavy Oil)。据Kirkothmer《化学工艺学大全》介绍,由于开采费用和加工费用太高,无法与目前大量开采的稀油(普通原油)竞争,因此还没有大量
目的:探索适合于城市社区艾滋病病毒感染者和患者(PLWHA)随访管理模式,为有效控制艾滋病的蔓延、延长PLWHA生存时间、提高生命质量提供科学依据。方法:2009年官渡区将PLWHA随
滨海新区功能定位的转变需要新区建立基于循环经济的区域经济发展模式。发展循环经济的主要内容可以归结为产业的生态化,文章首先阐述了产业循环经济模式的内涵,而后分析了滨
猕猴桃皮中含有较高的可溶性膳食纤维(SDF)-果胶(P),可改善人胃肠功能,缓解便秘,降低其发生率。采用酸-酶-微波三联工艺,试图从猕猴桃皮中高效制备功能性食品-果胶。对酸-微
高速逆流色谱(high speed countercurrent chromatography,简称HSCCC)是一种快速、高效、连续的液-液分配色谱分离技术,在中药、生化、食品、天然产物化学、环境分析等领域有
交通建设债务风险的把控和预防是当下交通建设项目研究的重要课题之一。文章首先对交通建设债务风险的特点和类别进行了分析,接着概述了交通建设债务风险对于建设项目、金融
农村集体"三资"是指农村集体资金、农村集体资产和农村集体资源。近年来,随着社会发展,城乡一体化统筹工作的推进,民生工程和国家、省级重点项目建设的用地需求日益增加,对加
刑案假象是由于作案人的原因或偶然因素的介入,形成虚假乃至歪曲反映案件事实真相的现象的总称。它具有潜在性、矛盾性、接近性、辩证性的特征。对刑案假象的识别需要做好现
警务工作需不断适应社会形势发展。警务战术是警察与执法对象对抗的方法和策略。警务战术的发展应该依据社会环境、警务体制改革、警方实力、执法对象等的变化规律而不断创新
分析我国铁路信息化建设现状,指出为促进铁路信息化健康、有序的发展,急需解决的问题是必须加强知识管理和安全管理,主要是网络基础设施安全、完善网络安全技术措施和完善计