基于Hadoop平台的海量数据处理研究及应用

被引量 : 17次 | 上传用户:jianrui02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们处在一个数据爆炸的时代,随着云计算技术的流行,互联网技术的发展,传统产业的自动化和信息化提升以及人类正在被数字化的生活,海量数据已经逐渐将我们包围。数据的不断增长在给人们带来巨大价值的同时,也给人们带来了巨大的挑战。海量数据处理已经成为很多大型企业所关注的焦点。Web日志处理是海量数据处理中较受关注的一个领域,企业通过对Web日志的分析处理,不仅可以观察系统的运行状态,还可以统计出网站的访问量大小,访问的来源,用户的关注点,了解用户的使用终端,使用浏览器的类型,这些对改进系统的可用性及易用性具有很大的帮助。但同时日志又具有海量,复杂,难以读懂等特点,面对现在飞速增长的Web日志,传统采用单机来处理日志的方式已经逐渐满足不了人们的需求,如何高效率的从海量日志里挖掘出有价值的信息,这是本文的一个关注的问题。本文针对Web日志处理,选取了目前一种较为流行的技术Hadoop进行深入研究。Hadoop主要的组件包括HDFS和MapReduce。 HDFS是Hadoop集群提供的分布式文件系统,而MapReduce是一种分布式框架,通过这两者的结合,可以对海量的日志数据进行有效的处理。本文通过对Hadoop系统集群技术的研究学习,设计了一个基于Hadoop的日志处理模型,通过搭建了一个4个节点的Hadoop集群,对不同大小的日志数据进行处理。通过与单机系统处理结果的对比,论证了Hadoop系统在处理日志时的效率要高于单机。
其他文献
关于中国古代音乐辉煌的历史记载在古代文献典籍中处处可见,然而,由于历代的社会变迁、科学技术、社会制度等等客观原因致使历史上的许多音乐未能流传。多年以来,对于中国古
当今社会,预算信息已经成为译种重要的资源。政府在履行职责的过程中掌握了大量的信息,公开这些信息对保障公民知情权、提高政府工作透明度、促进依法行政、经济社会发展具有
新建铁路引入既有铁路枢纽方案是项目建设重点研究的内容,选择合理的车站站址及区间线路路由方案,能够更好的满足旅客运输需求,提高服务质量。文章通过综合考虑新建铁路引入
误差传播定律反映了直接观测量的中误差对间接观测量中误差的影响,通过三维激光扫描技术获取点云数据,点云数据本身的精度和后续处理的精度与可靠性对各种工程具有全局性的意
公司制度是市场经济的产物,是推动市场经济发展的原动力。同股份公司相比,有限公司(也称有限责任公司)是一种规模相对较小、市场准入门槛较低、股东人数亦有上限的公司类型。
21世纪是高度依赖计算机系统的信息时代,软件行业已经发展为当今时代最重要的行业之一。软件产品的种类和功能日益增加,各种应用程序满足了人们工作,生活,娱乐,学习,交友等方
无线协作中继技术是一种有效的抵抗无线信道衰落的方法,无需多输入多输出(MIMO)系统的额外复杂度,可以实现空间分集增益和扩大覆盖范围,引起了学术界和通信产业界的关注和研
随着我国早期修建的水泥混凝土路面基本上都到了或者接近其使用年限,路面结构破坏日益严重,严重影响了公路使用质量,养护工作越来越重。而旧路水泥混凝土路面加铺沥青面层是公路
进入21世纪以来,世界各国及地区的经济结构在不断发生深刻的变化,其中,服务业异军突起,在国民经济中的地位逐步提高。服务业的发展水平和增长已经成为衡量一个国家经济现代化程度