面向物流海量数据管理及应用研究

被引量 : 0次 | 上传用户:anpeila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网、移动互联网和物联网得到了快速的发展,不断增加的网上用户数量也使得数据量不断增加。单个机器的负载能力已经不能很好的存储现在的海量数据,怎样搭建规模大、效率高、可扩展性好的存储系统尤为重要。云计算已经成为当前研究的热点问题,云计算衍生出云存储技术,国内外也开始对云存储技术做了深入的研究。研究云计算和云存储标准参考模型是基于Google File System的开源实现的Hadoop文件系统HDFS,但是HDFS架构存在很多的缺点,较为突出的是单个NameNode易造成整个集群性能瓶颈问题。本文主要在现有HDFS的研究基础上,提出了一种基于MongoDB的多NameNode解决方案,该方案能很好的解决HDFS单一NameNode性能瓶颈问题。通过实验表明,本方案能对HDFS集群的命名空间进行拓展。与此同时随着社会大物流的发展,企业如何从这些海量的信息中挖掘出有用的信息,己经成为该领域研究的关键。云计算具有计算能力弹性化,存储能力海量化,节约成本,提高效率方面等优点,所以,云计算已经成为能有效的处理数据挖掘技术所面临难题的方法之一。本文首先从两个方面分析MapReduce编程模型和Hadoop平台,进而深入介绍了Mahout,并且详细对Mahout内部数据表示模型做了深入探讨,采用K-Means算法,对K-Means算法进行并行化分析,详尽的阐述了K-Means聚类在MapReduce编程中的实现和在Mahout中的应用。文章最后,主要针对我国物流业具体情况,提出数据挖掘的并行和串行两种模式,主要是针对K-Means算法在这两种情况下解决海量数据挖掘问题时效率的比较,本文从不同距离度量方式,运行时间,迭代次数等方面评估了K-Means算法聚类结果,最后发现其效率差异,能对海量数据挖掘起到很好的指导实践意义。本文通过基于MongoDB的多NameNode的HDFS云存储技术和基于MapReduce编程模型的K-Means算法并行云挖掘技术很好的处理了物流业海量数据信息的存储和计算问题,通过调用HDFS存储的海量数据,上层Mahout进行海量数据信息并行化数据挖掘,挖掘出对于物流行业有用的信息。
其他文献
目的分析结直肠癌围术期营养和免疫状况,为临床应用提供依据。方法将2014年1月~2016年12月河北北方学院附属第一医院收治的100例直肠癌患者采用随机信封法分为干预组及对照组,
金履祥的《濂洛风雅》作为宋代理学家一部重要的诗歌选集,自问世以来,始终没能引起学界的足够重视,许多研究大都将其与张伯行的《濂洛风雅》综合在一起,虽然取得了一些阶段性成果
彩石金属瓦——威纳钢瓦以镀铝锌钢板为基材,经表面处理、粘合彩砂及喷涂外保护层制成,与防水透气膜、岩棉一起在亚热带气候区的40°坡屋面上应用,施工便捷,防水、抗风效果良
徐州古称彭城,地处南北方过渡地带,为北国锁钥,南国门户,向来为兵家必争之战略要地和商贾云集中心,历史文化悠久。桂中行是晚清官员,任徐州知府十二年,重教育,宣民风,深深为
发生于20世纪初年的庚子国变所产生的影响是巨大的。对于庚子国变,史学界进行了百余年的讨论和争辩,此间一脉相承的观点少之又少。前人笔下的观点和史学形象常被后代学者颠覆
故宫作为中国文化史上具有独特意义的皇家宫殿,凝聚了近六百年的朝代变迁与人世沧桑。故宫题材纪录片以北京故宫为表现对象,或表现故宫的建筑,或表现其文物,或表现与其紧密相
近年来南方红壤丘陵地区大力实施脐橙、柑橘等经济作物的高效节水改造工程;滴灌技术多被用到丘陵地区脐橙和柑橘灌溉中。研究确定适合于该区域的滴灌技术参数,对该区域脐橙和
杨剑龙的小说《金牛河》是21世纪后知青文学中的一个重要文本,是20世纪六七十年代以来知青主流文学连绵不断的潜流中的重要一支,在《醉入花丛》因被封杀而沉寂了多年之后,完成了
岳端是清初宗室文人的典型代表,近人邓之诚曾评价道“较之江南耆宿,亦足自树一帜也”。从少年时的贵族郡王沦落至中年时的闲散宗室,岳端的人生道路历经坎坷,这既影响他的思想
顺治朝统一云南过程中对云南土司之"招抚"与"征讨",是王朝更替形态中新势力与原有政治势力之间博弈策略的表现。云南纳入清朝治下后,如何实现西南的久安长治,是统治者思考土