论文部分内容阅读
随着移动设备、通信技术和信息技术的快速发展,人类已经进入大数据时代,各行各业日均产生的数据从GB、TB一路发展到PB级,各种用于处理大数据的工具也随之出现,如Hadoop,Hive,Pig,Sqoop等Hadoop家族工具,或类MapReduce并行计算引擎如Spark等等。在实际的大数据分析中,用户常常将多种工具组合起来,以大数据工作流的形式使用。但是上述工具的专业性较强,普通用户使用前需要对其内部工作原理有较好的理解,使用门槛较高,由此导致专业用户开发出的大数据处理流程复用性低。本文针对这一情况,在大数据处理流程模型化的思想下,提出了一个面向大数据的模型解释系统。课题首先解释了将大数据处理工作流模型化的思想,给出了大数据模型元数据的语言描述规范。在大数据模型的运行承载形式为Oozie工作流的情况下,为满足大数据处理节点类型不断扩展的需要,本文利用规则引擎逻辑与数据分离的特点,提出了大数据模型基于规则引擎到Oozie工作流的解释机制,并给出了大数据模型解释规则的描述。为了加快规则匹配速度,本文在深入分析规则引擎运行原理和Rete网络结构的基础上,结合大数据模型解释规则的实际特点,提出了基于约束频度的Rete网络优化构建策略,通过根据约束频度对规则模式的约束重排序,构建出节点共享程度更高的Rete网络。为了满足模型复用的需要,本文分析了模型复用在设计、运行阶段的实现方式、现有实现方式的不足,然后提出了基于模型复制的复用模型解释方法。为了加快复用模型解释速度,本文从大数据模型在HDFS部署形式出发,提出了基于组合权重的本地化模型复制策略,在文件复制过程中对每一个Block选择DataNode放置副本时综合考虑网络距离、节点负载和空间空闲率。最后,本文给出了原型系统实现,并设计实验对基于约束频度的Rete网络优化构建策略和基于组合权重的本地化模型复制策略进行了正确性验证。