论文部分内容阅读
在信息技术以及应用需求的推动下,以提供空间分析服务为核心的地理信息系统(GIS,Geographic Information System)得到飞速发展,其应用领域不断向广度拓展,逐渐渗透到电子商务、电子政务、物联网、社会分析、城市计算以及基于LBS的移动互联网应用等各个领域。与此同时,空间信息变得处理实时化、规模海量化、数据表达多样化,矢量空间数据处理已经进入大数据时代。在大数据环境中,海量空间数据的存储和分析面临全新挑战,具有较多研究热点和难点问题,矢量空间大数据分析关键技术研究具有重要的实用价值。 本课题在国家重点研发计划“全空间信息系统和智能设施管理”、国家863计划“地理空间计算并行算法与中间件”以及横向项目“义乌购新一代电子商务关键技术及咨询”支撑下,围绕矢量空间大数据实时化服务,以矢量空间数据规模化存储与访存、高效化分析以及多维化处理带来的实时性、可用性挑战作为研究重点,利用内存数据库、分布式内存计算等为技术基础,解决矢量空间大数据存储和分析的关键技术,研发一套存储、访存与分析紧耦合的矢量空间大数据计算与服务中间件,取得的创新性成果如下: (1)提出并实现了一种面向并行矢量空间计算的数据存储与访存策略。针对空间数据聚集性的分布特征,设计了基于Hilbert空间填充曲线和并行R树的空间数据切分策略,保证了空间对象的临近性以及数据块之间数据规模的相对均衡性。基于K-V存储模式的内存矢量空间数据组织结构提高了空间数据的存取效率。低通讯并行调度机制极大地减少了并行计算过程中计算任务之间的通讯成本,使得空间计算算法归并收集阶段的时间复杂度由O(n log n)降到O(n)。实验表明,该策略使得并行矢量空间计算的I/O时间至少减少75%,并且算法的总体性能也有明显的提高,对于提高数据密集型并行矢量空间分析算法效率具有重要的意义。 (2)提出并实现了一种基于网格膨胀的矢量多边形并行叠加分析方法。针对叠加分析算法数据分配阶段时间成本高的问题,提出基于多边形MBR(Minimum Bounding Rectangle)随机样本提取绘制空间填充曲线的方法,降低了数据的预处理时间,减少了计算过程中的数据通讯带来的性能损耗。基于网格膨胀的数据划分策略,在保证数据划分的合理性的前提下,使得数据预处理效率至少提升1倍以上。跨区数据交点定位策略,有效地消除了跨区多边形的冗余计算,避免了计算任务结束之后的数据去重操作。实验表明,本方法相比传统方法具有更高的性能优势和良好的扩展性,并且在大规模数据的条件下,能够保证较高的加速比和并行效率。 (3)提出并实现了一种基于语义的空间最邻近查询并行处理机制。针对空间关键词最邻近查询查准率低以及查询性能差的问题,融合空间位置和属性特征,将最邻近查询分析进行空间语义扩展,提出了基于语义的空间最邻近查询并行处理机制。该查询机制设计了以分类词库为基础的空间语义树模型,对查询关键词和空间对象进行空间语义相似度度量,以确保用户查询意图与查询结果之间的相关度。在空间距离的度量计算中,在保证算法精度的前提下,通过优化距离计算公式,加快了算法的执行效率。在内存矢量空间数据结构的基础上进行空间语义扩展,提出基于空间语义的内存空间数据结构,在保证空间临近性的同时又能够保证语义临近性。实验表明,与传统方法相比,该查询机制具有更高的查准率、召回率以及查询性能。 最后,将所研究的并行矢量访存与分析的关键技术进行集成,利用内存数据存储与计算技术,实现了矢量空间大数据计算与服务中间件系统。通过并发仿真测试,验证了中间件系统的稳定性以及高效性。