论文部分内容阅读
随着信息技术的发展,存储设备成本的降低,企业都根据自己的业务需求建立了大量的数据库并存储了海量的数据。如何利用这些数据为业务决策提供指引与建议是企业决策分析人员需要解决的一个难题。联机分析处理(OLAP)被公认为是一个有效的解决方案。OLAP能够高效快速地对海量数据进行多维度、跨粒度的分析并提供决策支持。经过二十多年的研究与发展,OLAP技术已经相对成熟规范,很多商用的数据库以及数据仓库系统都有OLAP功能的实现。近些年来,社交网络、生物信息、多源信息融合等新兴领域高速发展,在现实应用中涌现出大量的多维异质网络,网络的规模也在不断增大。传统OLAP分析的数据是以事实表与维表组织的,事实之间没有关联。使用传统的OLAP技术无法有效的对多维网络进行分析。面对这一问题,Graph OLAP技术逐渐发展起来,这一技术相比于传统的OLAP技术,改进了信息模型,使用图立方体代替数据立方体,支持网络数据的多维多角度分析。但是Graph OLAP的研究目前仍还处于起步阶段,模型分析能力有限,大多的模型不支持对多维异质网络以及海量数据进行有效和高效的分析。本文针对现有Graph OLAP模型的不足,提出了新的分析模型,支持大规模多维异质网络的多维度分析,本文的主要研究内容如下:1.设计了新型的多维异质网络信息模型,定义了异质网络中的二元关系元路径,n元关系元路径,并对这些元路径的关系进行了研究,作为指导网络聚集的新方式。2.设计了 TSMH Graph Cube,将传统的图立方体扩展为实体超立方体和维度立方体这样的两阶段立方体。在立方体模型的基础上,赋予了传统操作新的语义,并提出了更多的Graph OLAP操作,使得网络分析更加多样。3.对实体超立方体,本文提出了并行化的聚集算法并给出了物化策略。对维度立方体,本文对节点以及维度属性进行编码,设计了节点的编码算法,使得节点做维度OLAP操作时无需进行实体表与维度表的连接操作,大大提高了维度OLAP操作的效率。4.为支持海量的数据规模,模型的Graph OLAP操作算法使用并行计算框架实现。通过对大规模真实以及模拟数据的实验,验证了模型对大规模多维异质网络能够进行有效和高效的分析。