论文部分内容阅读
近年来,随着科技的进步与发展,数据采集终端数量的上升,人们不可避免的会在日常工作与生活当中面对数量庞大、种类繁多的数据信息。人们如何处理与利用这些海量数据也决定了人们在生产生活中的决策行为将不再是基于过去的经验与直觉,而是转变为通过对相应数据进行数据处理,从而得到在海量数据指导下的策略选择。大数据处理系统作为大数据技术中的重要研究内容,通过不同数据架构以及数据处理算法来满足不同业务类型的大数据存储以及处理要求,具有重要的研究意义。现有成果从不同方面对大数据的存储以及处理提出了不同的解决方法,但仍有不足。例如,大数据的数据量虽然巨大,但是针对某一产业或某一方面的大数据具有一定的数据特征,如今的数据处理系统并未充分利用这些特征,也无法利用大数据之间的特征关系进行数据处理,难以优化整个大数据处理系统。1.本文在对大数据处理系统的关键技术进行构想与研究的基础上,首先采用Hadoop架构来搭建系统实验平台。通过操作Map Reduce模型预留出的Map映射函数接口完成针对数据采集终端数据的粗处理过程,再根据Map函数的输出结果调用相应的Reduce函数完成大数据的规约化处理,从而挖掘出相应海量数据的数据特征。同时,利用Map Reduce函数优化了大数据处理系统的整体存储性能,使得大数据信息的存储变得更加的合理、可靠。2.针对不同类型的大数据信息各自具有独特的数据特征的特点,本文将传统的基于内存的Page Rank算法引入到基于Map Reduce数据处理模型的大数据处理系统当中。针对数据处理中对于图数据以及高维数据的处理往往涉及多次迭代以及不同计算机之间的大量网络通信的缺点,通过合理划分子图,保证数据的迭代发生在图数据以及多维数据被合理划分的子图内;以及合理确定内部节点和外部节点来避免不同计算机之间的数据通信发生在整个大数据整体上,从而降低网络通信所需要的带宽。同时,将基于内存的Page Rank算法运用到多维数据和图数据的子图数据的多次迭代当中,从而保证了整个大数据处理系统既有普通Page Rank算法的效率,也能够异步的扩展在不同系统的计算机实验平台上。3.本文采用两个大规模高维数据以及图数据集,分别是Live Journal数据集以及Face Book数据集。Live Journal数据集包含4847571个数据节点,68993773个数据边,Live Journal数据集来源于网站www.livejournal.com。Face Book数据集包含957359个数据节点和161933115条数据边。实验所用计算机均安装Ubuntu9.04,32位操作系统以及Java1.6和Hadoop0.20.2进行实验。实验结果表明,本文提出的大数据处理系统可以提高数据处理速度,降低系统所需通信带宽。