矢量空间大数据分析关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gy19910192
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术以及应用需求的推动下,以提供空间分析服务为核心的地理信息系统(GIS,Geographic Information System)得到飞速发展,其应用领域不断向广度拓展,逐渐渗透到电子商务、电子政务、物联网、社会分析、城市计算以及基于LBS的移动互联网应用等各个领域。与此同时,空间信息变得处理实时化、规模海量化、数据表达多样化,矢量空间数据处理已经进入大数据时代。在大数据环境中,海量空间数据的存储和分析面临全新挑战,具有较多研究热点和难点问题,矢量空间大数据分析关键技术研究具有重要的实用价值。  本课题在国家重点研发计划“全空间信息系统和智能设施管理”、国家863计划“地理空间计算并行算法与中间件”以及横向项目“义乌购新一代电子商务关键技术及咨询”支撑下,围绕矢量空间大数据实时化服务,以矢量空间数据规模化存储与访存、高效化分析以及多维化处理带来的实时性、可用性挑战作为研究重点,利用内存数据库、分布式内存计算等为技术基础,解决矢量空间大数据存储和分析的关键技术,研发一套存储、访存与分析紧耦合的矢量空间大数据计算与服务中间件,取得的创新性成果如下:  (1)提出并实现了一种面向并行矢量空间计算的数据存储与访存策略。针对空间数据聚集性的分布特征,设计了基于Hilbert空间填充曲线和并行R树的空间数据切分策略,保证了空间对象的临近性以及数据块之间数据规模的相对均衡性。基于K-V存储模式的内存矢量空间数据组织结构提高了空间数据的存取效率。低通讯并行调度机制极大地减少了并行计算过程中计算任务之间的通讯成本,使得空间计算算法归并收集阶段的时间复杂度由O(n log n)降到O(n)。实验表明,该策略使得并行矢量空间计算的I/O时间至少减少75%,并且算法的总体性能也有明显的提高,对于提高数据密集型并行矢量空间分析算法效率具有重要的意义。  (2)提出并实现了一种基于网格膨胀的矢量多边形并行叠加分析方法。针对叠加分析算法数据分配阶段时间成本高的问题,提出基于多边形MBR(Minimum Bounding Rectangle)随机样本提取绘制空间填充曲线的方法,降低了数据的预处理时间,减少了计算过程中的数据通讯带来的性能损耗。基于网格膨胀的数据划分策略,在保证数据划分的合理性的前提下,使得数据预处理效率至少提升1倍以上。跨区数据交点定位策略,有效地消除了跨区多边形的冗余计算,避免了计算任务结束之后的数据去重操作。实验表明,本方法相比传统方法具有更高的性能优势和良好的扩展性,并且在大规模数据的条件下,能够保证较高的加速比和并行效率。  (3)提出并实现了一种基于语义的空间最邻近查询并行处理机制。针对空间关键词最邻近查询查准率低以及查询性能差的问题,融合空间位置和属性特征,将最邻近查询分析进行空间语义扩展,提出了基于语义的空间最邻近查询并行处理机制。该查询机制设计了以分类词库为基础的空间语义树模型,对查询关键词和空间对象进行空间语义相似度度量,以确保用户查询意图与查询结果之间的相关度。在空间距离的度量计算中,在保证算法精度的前提下,通过优化距离计算公式,加快了算法的执行效率。在内存矢量空间数据结构的基础上进行空间语义扩展,提出基于空间语义的内存空间数据结构,在保证空间临近性的同时又能够保证语义临近性。实验表明,与传统方法相比,该查询机制具有更高的查准率、召回率以及查询性能。  最后,将所研究的并行矢量访存与分析的关键技术进行集成,利用内存数据存储与计算技术,实现了矢量空间大数据计算与服务中间件系统。通过并发仿真测试,验证了中间件系统的稳定性以及高效性。
其他文献
我国处于东亚季风区,主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因,有重要的研究意义。
随着云计算、大数据和互联网服务的兴起,数据中心中出现了一类轻量级的可扩展的负载,传统的高性能服务器对这类负载的适配性并不是很好,主要体现在服务器计算密度低,资源利用率不
P2P技术的迅速发展给数字图书馆的建设提供了广阔的应用空间。分布式数字图书馆中的一些应用软件在分布式互操作方面具有较大的共通性,若能为它们提供一个通用的P2P应用平台和
随着Internet的快速发展,Web环境已拥有了海量信息。Web信息中包含大量有用的知识:通过Web信息挖掘,我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息
本文提出了动态代码植入技术(Dynamic Code Implantation),它借用半虚拟化的方式,动态修改全虚拟化系统中客户操作系统(Guest OS)的内核代码。在有硬件辅助的全虚拟化虚拟机管理
虚拟植物是应用计算机模拟植物在三维空间中的生长发育状况,是虚拟现实技术在农业领域的应用。其核心内容是生长模型和可视化技术,生长模型反映植物形态结构的动态变化,可视化技
一词多义是普遍现象,而且随着时代的发展和语言的丰富,词义在使用中随时在变化着,这是语言学家也无法准确把握或预测的现象,本文利用索引系统对实体名词的多义进行了分析,希望可以
互联网的飞速发展,信息的迅速膨胀,使得互联网中的网页数量呈指数级别增长。据Google的官方博客公布的最新数据,目前世界网络中存在的网页的数量已经达到了万亿的量级。网络信息
随着XML数据量的不断增加,提出了XML文档的不同存储方法。目前存在的XML数据的存储模式主要可以分为两类:关系存储模式和native存储模式。虽然我们将XML存于数据库当中,但目前的
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,能够协作地完成实时监测、传感和采集目标对象的信息,并对其进行处理,传送给需要信息的用