论文部分内容阅读
随着计算机的普及和网络规模的不断扩大,数字化信息爆炸式的增长。信息的产生、传播、搜集与查询成为当今世界人类最基本生活需求。如何在浩瀚的数据信息中,为用户更快、更准确的索引信息成为亟待解决的问题。与此同时,人类社会对高性能计算的应用需求也在不断推动并行计算平台的普及和提高。数据检索最主要的方法就是构建各种适合的索引,并通过对索引高效的检索数据信息。随着检索数据和用户查询的规模增大,信息检索系统要提升处理能力和处理规模,需要通过对于并行计算平台的良好应用来解决。那么如何充分的利用并行计算平台来提高信息检索系统的性能,提高系统处理数据能力,成为该领域研究的重要问题。随着并行计算平台的发展,将索引应用于并行计算平台是一个必然的趋势。本文采用并行计算“结构—算法—编程—应用”一体化的研究方法,围绕如何解决并行计算平台上的数据索引系统的运行效率、如何完成数据索引系统从串行到并行的良好过渡、如何实现数据索引系统的高效能运作等问题展开深入分析研究;有效的解决了此类问题从串行计算时代到并行计算时代过渡中出现的障碍,有助于建立并行计算的科学研究体系,增强并行计算平台的实际应用能力。本文针对目前互联网上应用最广泛,最普遍的高维数据、文本数据和时间序列数据,分别提出了基于并行计算平台的HKD-tree混合索引结构、并行计算平台上的可实时更新索引结构和基于并行计算平台的时间序列索引结构。通过将KD-tree和LSH的有效结合提出一个有效的混合索引结构HKD-tree,并且适时予以并行化使其与SMP机群系统结构相匹配,从而提出了并行计算平台上的高维数据索引问题的一个有效解决方案。通过改进传统倒排索引结构的单一模式,利用由主、辅倒排索引和内容过滤索引构,满足了索引的实时性要求,并在一定程度上实现了索引过程的高效能。通过对时间序列数据的分析,提出一种可应用于并行计算平台的时间序列索引结构并进行相应的功耗分析,打破了传统索引方式只注重索引效率而忽视索引效能的单一思路,实现了系统索引过程的高效能低功耗。综上所述,本文针对并行计算平台上的数据索引技术的研究,可以有效地提高数据索引的运行效率和并行性能,充分发挥并行计算平台的计算能力,具有一定的理论意义和广泛的应用前景。具体而言,本文的主要研究成果、贡献和创新点可概括为以下几点:1.基于并行计算平台提出HKD-tree混合索引结构。该结构将KD-tree和LSH两种索引结构进行组合,利用KD-tree作为上层结构的主干而LSH充当叶子节点,从而可以利用多核机群系统的层次并行结构特性,与传统的索引结构相比,该混合索引结构具有高效并行处理、可扩展性好等特点,适于SMP机群系统平台上的高维数据索引。2.基于国产并行计算平台KD60提出一种可实时更新的倒排索引结构。该方案打破了传统倒排索引结构的单一模式,由主、辅倒排索引和内容过滤索引构,满足了索引的实时性要求。该方案成功应用于国产万亿次高性能绿色计算平台KD60,实现了索引过程的低功耗,同时解决了搜索引擎的功耗问题。实验证明,基于KD60平台的倒排索引结构很好的解决了索引的实时更新问题,并在绿色计算的实际应用中具有良好的高效能表现。3.基于并行计算平台的时间序列索引。提出一种基于并行计算平台的时间序列索引,并针对该索引结构提出相应的并行功耗分析模型。该方案在解决时间序列索引问题的同时,打破了传统索引方式只注重索引效率而忽视索引效能的单一思路,实现了系统索引过程的高效能低功耗。实验证明,基于并行计算平台的时间序列索引很好的解决了时间序列索引的性能问题,在索引的功耗方面也有良好表现。