基于NoSQL的大规模Web日志分析系统的设计与实现

被引量 : 0次 | 上传用户:jrff1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步以及互联网的高速发展,越来越多的Web应用被用户所使用。互联网公司也面临着更多的挑战,每天页面都会被数以万汁的用户·所使用,使得Web日志的数量也快速增长。如何更好的提高互联网公司的服务质量,了解用户的需求及爱好,增加用户的粘度,成为当今互联网行业急需解决的问题。如何利用收集的大规模Web日志数据,从这些海量数据中心找出对企业有价值的信息,是目前大多数企业面临的问题。以用户访问的Web日志数据为基础,来改进网站的设计,吸引更多的流量,从而提高用户的体验,给企业带来效益,促使了Web日志分析的产生。Web日志分析就是通过收集用户访问Web网页所产生的日志,对这些日志进行格式转换、过滤、清洗、挖掘等一系列的过程。随着Web应用访问量的增大,相应的Web日志的数量也在不断地膨胀,传统的数据存储方式不能满足当前的需求。对于Web日志的分析,单个节点的处理能力有限,不能达到互联网企业分析日志的需求,为此,大规模Web日志分析系统应运而生。采用分布式对日志进行存储以及进行分布式计算成为了大规模Web日志分析发展的必然趋势。本文主要研究NoSQL数据库MongoDB以及Hadoop分布式计算架构,并且基于MongoDB和Hadoop设计和实现了一个高性能的大规模Web日志分析系统。Hadoop包括两个核心的技术:分布式文件系统HDFS以及分布式编程模型MapReduce。本系统使用MongoDB对日志文件进行存储,日志通过分片技术被分割成若干大小相同的日志数据集,存储在分布式系统的不同节点上;利用Hadoop提供的MapReduce编程模型,对节点中的大规模的Web日志进行分析。分析的过程主要包括日志收集、日志处理、日志存储以及日志分析,系统最终以Web界面的方式展示给用户使用。基于NoSQL的大规模Web日志分析系统在收集、处理、存储和分析方面较以往的系统有很大的改进,可以高效的对各种格式的日志进行处理,不仅减少了开发人员的工作量同时提高使用人员的工作效率。
其他文献
<正>有学者谈到微博两年来突飞猛进的发展时这样说:"无论是‘7.23’温州动车特大事故,还是‘让领导先飞’的宁波机场风波;无论是徒手接住高空坠落女孩的‘最美妈妈’,还是饿
目的:对炙甘草汤加减方治疗心房颤动的疗效进行评价。方法:在中国期刊全文数据库(CNKI)、中文科技期刊数据库(VIP)和万方数据库中检索2000年1月至2017年4月发表的炙甘草汤加减方治
在信息技术高度发达的当今社会,统计信息是非常重要的社会资源,它对经济持续发展起着举足轻重的作用,统计信息化已成为统计工作不可逆转的趋势。本文就我国统计信息化建设面
<正>曾几何时,游客在国内旅游时"谈购色变",旅游购物甚至成为"过街老鼠"。国内旅游购物发展为何步履艰难?旅游购物要素提升为何徘徊不前?瑞士旅游购物能够给我们很多很好的启
评价区域再分析数据的精度和不确定性对于陆面过程模拟和气候变化分析有重要意义。以黑河流域为研究区,基于站点观测数据对中国区域高时空分辨率地面气象要素驱动数据集(CMFD
本文通过对中国大陆30余年来传播学出版的专著、译著的规模、过程、主题与核心作者等方面的数据整理、分析与研究,发现我国的传播学研究已经具有相当规模,但在理论积累以及成
<正> 漂白粉是常用消毒剂,其消毒效果主要取决于有效氯含量。目前常用碘量法测定有效氯含量,因其操作过程麻烦、费时,有时基层部队不易做到,故研究出简易测定法。 (一) 原理
思想政治教育与心理健康教育既有区别又有联系。在新形势下,高校为了适应时代的要求,提高人才培养质量,应将心理健康教育融入思想政治教育之中。文章初步分析了心理健康教育
<正>随文识字是一种适合低年级孩子学习心理和年龄层次的好方法。我们的识字课,就要充分体现"字不离词、词不离句"的随文识字主张,巧妙地把识字、阅读、说话三者结合起来,在
目前,畜禽粪便污染已经成为了一个重要问题,利用羊粪进行好氧堆肥,既可以减少环境污染,又可以获得优质的有机肥,本试验研究不同堆积高度的羊粪堆肥效果影响,为羊粪的无害化处