论文部分内容阅读
近年来,互联网、移动互联网和物联网得到了快速的发展,不断增加的网上用户数量也使得数据量不断增加。单个机器的负载能力已经不能很好的存储现在的海量数据,怎样搭建规模大、效率高、可扩展性好的存储系统尤为重要。云计算已经成为当前研究的热点问题,云计算衍生出云存储技术,国内外也开始对云存储技术做了深入的研究。研究云计算和云存储标准参考模型是基于Google File System的开源实现的Hadoop文件系统HDFS,但是HDFS架构存在很多的缺点,较为突出的是单个NameNode易造成整个集群性能瓶颈问题。本文主要在现有HDFS的研究基础上,提出了一种基于MongoDB的多NameNode解决方案,该方案能很好的解决HDFS单一NameNode性能瓶颈问题。通过实验表明,本方案能对HDFS集群的命名空间进行拓展。与此同时随着社会大物流的发展,企业如何从这些海量的信息中挖掘出有用的信息,己经成为该领域研究的关键。云计算具有计算能力弹性化,存储能力海量化,节约成本,提高效率方面等优点,所以,云计算已经成为能有效的处理数据挖掘技术所面临难题的方法之一。本文首先从两个方面分析MapReduce编程模型和Hadoop平台,进而深入介绍了Mahout,并且详细对Mahout内部数据表示模型做了深入探讨,采用K-Means算法,对K-Means算法进行并行化分析,详尽的阐述了K-Means聚类在MapReduce编程中的实现和在Mahout中的应用。文章最后,主要针对我国物流业具体情况,提出数据挖掘的并行和串行两种模式,主要是针对K-Means算法在这两种情况下解决海量数据挖掘问题时效率的比较,本文从不同距离度量方式,运行时间,迭代次数等方面评估了K-Means算法聚类结果,最后发现其效率差异,能对海量数据挖掘起到很好的指导实践意义。本文通过基于MongoDB的多NameNode的HDFS云存储技术和基于MapReduce编程模型的K-Means算法并行云挖掘技术很好的处理了物流业海量数据信息的存储和计算问题,通过调用HDFS存储的海量数据,上层Mahout进行海量数据信息并行化数据挖掘,挖掘出对于物流行业有用的信息。