面向大数据的模型解释系统关键技术研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:akiro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动设备、通信技术和信息技术的快速发展,人类已经进入大数据时代,各行各业日均产生的数据从GB、TB一路发展到PB级,各种用于处理大数据的工具也随之出现,如Hadoop,Hive,Pig,Sqoop等Hadoop家族工具,或类MapReduce并行计算引擎如Spark等等。在实际的大数据分析中,用户常常将多种工具组合起来,以大数据工作流的形式使用。但是上述工具的专业性较强,普通用户使用前需要对其内部工作原理有较好的理解,使用门槛较高,由此导致专业用户开发出的大数据处理流程复用性低。本文针对这一情况,在大数据处理流程模型化的思想下,提出了一个面向大数据的模型解释系统。课题首先解释了将大数据处理工作流模型化的思想,给出了大数据模型元数据的语言描述规范。在大数据模型的运行承载形式为Oozie工作流的情况下,为满足大数据处理节点类型不断扩展的需要,本文利用规则引擎逻辑与数据分离的特点,提出了大数据模型基于规则引擎到Oozie工作流的解释机制,并给出了大数据模型解释规则的描述。为了加快规则匹配速度,本文在深入分析规则引擎运行原理和Rete网络结构的基础上,结合大数据模型解释规则的实际特点,提出了基于约束频度的Rete网络优化构建策略,通过根据约束频度对规则模式的约束重排序,构建出节点共享程度更高的Rete网络。为了满足模型复用的需要,本文分析了模型复用在设计、运行阶段的实现方式、现有实现方式的不足,然后提出了基于模型复制的复用模型解释方法。为了加快复用模型解释速度,本文从大数据模型在HDFS部署形式出发,提出了基于组合权重的本地化模型复制策略,在文件复制过程中对每一个Block选择DataNode放置副本时综合考虑网络距离、节点负载和空间空闲率。最后,本文给出了原型系统实现,并设计实验对基于约束频度的Rete网络优化构建策略和基于组合权重的本地化模型复制策略进行了正确性验证。
其他文献
成像测井技术是将沿井壁或井周的地层信息以电子图像的方式直观显示的新一代测井技术。成像测井在复杂油气储层等地质解释评价中发挥着越来越重要的作用,成为现在研究热点之一
近年来,通用计算图形处理器作为计算密集型应用的加速器,被科学家和工程师们广泛关注。在CPU-GPU异构并行计算平台上,诸如CUDA和OpenCL等编程框架都提供了相对底层的编程接口
随着成像设备以及计算机科学技术的发展,自然场景图像的分析处理具有重大的学术价值和应用意义。论文以自然场景图像为研究对象,对视觉注意模型和图论分割算法进行了深入研究和
基于图像的非接触式人体测量方法,具有快速、便捷、成本低等优点,已逐渐成为人体测量技术的研究趋势。人体参数测量的精确度取决于人体特征点的准确提取和围度拟合的方法,而
随着物联网技术的发展,无线传感器网络与IP网络的互联成为物联网应用的一个技术瓶颈。要实现使用不同通信协议的两种网络之间的无缝连接,网关起到了非常关键的作用。无线传感
多年来,软件已经从硬件附带的免费代码演变成了有独立价值的产物,几乎支持所有电子设备和系统的自动化。互联网时代的到来使得越来越多的软件分布于移动端,软件在人们生活中
近年来,由于光纤通信技术和以太网技术的迅猛发展,基于以太网的无源光网络(EPON)技术在国内得到了大规模应用。但各个设备制造商使用自定义的OAM帧来实现具体的功能,造成了不
语义网是万维网的一个扩展,用机器可理解的方式来描述信息,为了解决当前万维网缺乏语义的问题。语义网中用本体来描述信息,表达概念以及概念之间的关系。由于现实世界的信息
人工蜂群算法(Artificial Bee Colony, ABC)是近年来流行的一种进化计算方法,受启发于蜂群个体间相互协作的特定社会群体行为,是一种基于种群搜索策略的启发式优化算法。人工
网络发展迅速,网页数量越来越庞大,人们为了获取需要的信息,往往需要翻阅大量的网页,浪费时间和精力,并且还不一定能够获取最新最全的信息,而网络信息的发布者也希望有更多的