大规模轨迹数据时空索引研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ericc0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的兴起和位置感知技术的广泛应用,通信、交通、航运等领域积累了海量的轨迹数据,亟待挖掘其中的高价值信息。轨迹数据挖掘的基础是高效的轨迹查询,即从全量数据集中抽取符合查询条件的数据子集。轨迹数据规模的迅速增长在推动轨迹数据挖掘相关研究发展的同时,也为轨迹数据的存储访问及查询检索带来了巨大挑战。随着分布式文件系统逐步成为大规模数据存储的主要技术之一,如何基于分布式文件系统对大规模轨迹数据进行高效轨迹查询成为了首要问题。  时空查询是一类主要的轨迹查询需求,时空索引是实现高效时空查询的主要手段。时空查询的过程可以分为时空索引查找及查询结果抽取两个阶段。在索引构建时,传统的集中式时空索引在算法扩展性上严重受限,无法发挥分布式文件系统的访问优势。随着轨迹数据的数据规模增大至TB甚至PB级,构建的时空索引的数据规模也随之大幅增加,导致对索引的查找访问及维护更新效率大大降低。同时,由于分布式文件系统的单文件访问性能弱于单机文件系统,轨迹数据的存储组织形式将影响时空查询时需访问的文件数量进而影响查询效率。  针对以上问题,本文结合分布式文件系统的文件管理及访问特性从时空索引、数据存储组织两方面对提高大规模轨迹数据的时空查询效率进行了研究,最后结合实际的轨迹数据应用需求,实现了一个大规模轨迹数据通用时空查询系统,论文的主要贡献为:  (1)提出了一种低存储开销的分布式时空索引方法  提出了一种以文件为索引单元的基于R*树的分布式时空索引方法,大大降低了时空索引包含的叶子节点数量及产生增量数据时时空索引的维护开销,同一文件中的轨迹数据记录只参与文件索引记录的生成降低了计算复杂度,因此该时空索引具有较低的存储开销及较快的构建维护速度,可以有效提高大规模轨迹数据的时空查询效率。经测试,在包含船舶轨迹的AIS数据集上,该时空索引的构建速度与轨迹数据集的文件大小成正比,约为7.778 s/GB。索引的文件大小为轨迹数据集的文件大小的百万分之一,基于该索引的时空查询速度与查询命中文件总大小成正比,约为1.078 s/GB。  (2)提出了一种面向典型时空查询场景的轨迹数据存储组织优化方法  归纳并列举了三种由轨迹数据应用驱动产生的典型时空查询场景,包括时间相关、区域相关及事件相关查询场景,并提出了一种基于数据时空分布密度统计选择轨迹数据存储组织形式的方法,使其在典型时空查询场景下具有较短的平均查询响应时间。本文在模拟典型时空查询场景下测试并验证了包含船舶轨迹的AIS数据集适宜选用按空间网格聚集的数据存储组织形式,经测试,相比按时间戳升序存储的基本形式,在上述查询场景下分别可以缩短平均查询响应时间96.5%,80.6%,68.9%。当AIS数据定期增长时,适宜选用按时间片聚集的数据存储组织形式,时间片越长越接近按空间网格聚集的提升效果。  (3)设计并实现了一个轨迹数据通用时空查询系统  大规模轨迹数据通用时空查询系统为用户提供了可视化的数据管理、数据导入及时空查询功能。系统以数据集及数据表两层结构对轨迹数据资源进行管理;支持从异构数据库导入轨迹数据至系统所在分布式集群并按指定组织形式进行存储;通过轨迹数据模式及时空索引列变换定义机制为结构化轨迹数据提供通用的时空索引构建及多时间、空间条件的时空范围查询功能。该系统已应用于实际场景,为海洋数据的挖掘分析及融合相关应用提供AIS数据支撑。
其他文献
图像分类是一种根据图像的视觉内容将其自动划分到预先定义好的不同语义类别的方法。它是计算机视觉领域中的一项重要任务,是场景识别、目标检测、图像检索、视频检索等视觉任
本论文主要讲述了基于IPSEC协议体系和共享密钥认证机制的VPN系统的实现。该系统是为SED F2003防火墙系统提供一个可选的VPN功能模块,以提高该产品竞争力。本文通过对VPN技术
随着大数据时代到来,海量数据存储面临巨大挑战,基于磁盘的存储系统,磁盘I/O已经成为性能瓶颈,解决的方法是利用分布式内存存储系统。从应用的缓存系统到大数据处理的存储平台,数
OLAP和Web Service都是近年来日益受到人们重视的软件技术。OLAP向人们提供了一种强大的信息分析处理技术;而这两年来迅速崛起的WebService技术则以其开放、简单、易于实现的
“自顶向下”(Top-Down,TD)的蛋白质组学主要是以直接鉴定和定量整体蛋白质为研究目标。其中的计算问题相对于以肽段为研究对象的“自底向上”(Bottom-Up,BU)的蛋白质组学变得
针对现有附网刻录光盘镜像服务器功能单一、用户响应漫、不支持远程访问等缺点,设计并实现了新型的多功能附网存储服务器.该服务器除光盘镜像、附网刻录等基本功能外,还具有
该文针对Web资源访问控制中存在的问题,对基于特权管理基础设施(PMI)的属性证书机制和基于角色的访问控制(RBAC)技术的发展现状作了详尽的阐述和深入的探讨.同时围绕RBAC、PM
开发嵌入式Linux系统首先要解决它的引导问题,通过对核心的构造和引导过程的深入分析,研究出了嵌入式Linux的一般引导机制,给出了核心引导的三个必要条件,并为EDB7312开发平
随着目录服务和网络技术的发展,目录在网络中的作用越来越重要.目录服务从LDAP V3推出后,得到了主流网络操作系统的支持.这些都促进了整个网络资源的访问速度,提高了网络运行
随着我国全民健身意识的不断增强,人们逐渐将健身运动作为日常生活的一部分,并且为了能够更加科学规范地进行健身运动,通常在运动的同时记录当前健身数据从而进行统计和分析。随