基于Hadoop的Web日志的分析平台的设计与实现

来源 :北京邮电大学 | 被引量 : 40次 | 上传用户：angle4781

【摘要】

：

随着互联网行业的快速发展,互联网用户在成指数级别地增长。而且大众用户的正常的工作和生活越来越依赖于互联网,对于那些互联网企业,海量用户的访问每天都会产生海量的Web日

【作者】

：

付伟

【出处】

：

北京邮电大学

【发表日期】

：

2015年01期

【关键词】

：

Hadoop Web日志 K-means 数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网行业的快速发展,互联网用户在成指数级别地增长。而且大众用户的正常的工作和生活越来越依赖于互联网,对于那些互联网企业,海量用户的访问每天都会产生海量的Web日志信息,在这些Web日志中隐藏了巨大的商业信息。目前信息社会中准率先掌握了用户信息,谁就可以引领时代的发展。不仅如此,对Web日志的挖掘也可以改变人们的生活和工作习惯。本文的研究内容主要包括以下几个方面：对分布式技术进行了研究。主要深入研究了Hadoop分布式平台。近些年来,越来越多的企业、机构和个人对海量数据的研究产生了兴趣。其中Google公司可以说是大数据时代的开创者,Google公司的分布式平台Hadoop备受人们的喜爱。Hadoop分布式平台可以运行在普通的、廉价的计算机上面来提供分布式计算服务,但是Hadoop可以保证计算的高效性、安全性、高扩展性。Hadoop经过多年的发展,已经成长为了一个完整的生态系统,在其生态家族中最被常用的是MapReduce编程模型和HDFS (Hadoop分布式文件系统)。对聚类挖掘进行了研究。聚类分析方法是数据挖掘领域特别在Web日志分析中最常用的一个技术方法。聚类就是将数据集合中相似度较高的数据对象集合在一起,将数据对象划分成多个类或簇,类或簇就是相似性度量高的数据对象的集合,划分的准则就是类中的数据对象相似度比较大,而类间的数据对象相似性比较小。并且详细介绍了K-means聚类算法。对基于Hadoop的Web日志预处理模块进行了概要设计。Web日志预处理模块中主要负责对原始的Web日志数据进行数据清洗、用户识别、会话识别和路径补充等。本文设计了一套基于Hadoop的Web日志预处理系统来提高预处理的效率。对基于Hadoop的Web日志分析平台进行了详细设计。根据Hadoop以及Web日志挖掘深入的学习与研究,本文设计一个基于Hadoop的Web日志分析平台。该平台主要有以下几个功能模块组成：Web日志的预处理模块、Web日志的存储模块、Web日志挖掘模块。其中Web日志预处理模块使用上面介绍的基于Hadoop来实现的预处理模块。在存储模块中本文采用Hadoop中的HDFS和MySQL组合来实现。HDFS负责存储原始的Web日志文件以及经过Map和Reduce处理后的文件,而MySQL负责存储从HDFS分布式文件系统中导出的数据,以供业务层使用挖掘后的数据信息。本文使用sqoop工具负责HDFS和MySQL直接的数据传输。最后,Web日志挖掘模块中,首先,本文使用K-means聚类算法作为Web日志分析的挖掘算法,由于本系统基于Hadoop实现的,因此本文对K-means进行了改进使其能使用在分布式平台上。其次,本文主要对Web用户行为进行挖掘分析,因此需要对Web日志中的用户建立数据模型,并最终通过编程来实现了该系统。最后对基于Hadoop的Web日志分析平台功能测试和性能测试,并通过与单机系统的结果比较,证明了该系统在处理海量Web日志方面具有明显的优势。

其他文献

浅谈小反刍兽疫

小反刍兽疫,（又名小反刍兽伪牛瘟）是由小反刍兽疫病毒引起的一种急性病毒性传染病。主要感染小反刍动物,以发热、口炎、腹泻、肺炎为特征。OIE将其列为A类疫病。小反刍兽疫病毒

期刊

小反刍兽疫病毒性传染病小反刍动物牛瘟病毒免疫学特性麻疹病毒副粘病毒物理化学

中西医结合治疗耕牛前胃弛缓

前胃弛缓是由各种病因导致前胃神经兴奋性降低,肌肉收缩力减弱,瘤胃内容物运转缓慢,微生物区系失调,产生大量发酵。

期刊

前胃弛缓中西医结合治疗耕牛瘤胃内容物微生物区系兴奋性收缩力

羊小反刍兽疫病的综合防治方法探析

羊小反刍兽疫病即羊瘟,其主要是由小反刍兽疫病病毒引发的羊致病性传染病。随着我国羊养殖业的不断发展,羊小反刍兽疫病的发病率日渐上升。因此,应做好该病的综合防治工作,以

期刊

羊小反刍兽疫病综合防治方法

县长带头捐献资料

最近,木里县人民政府副县长杨智同志将一本由美国出版反映木里历史的重要资料捐献给了县档案馆。这本英文书籍,是今年4月美国登山队在攀登贡嘎山时赠送给杨智同志的,书中收

期刊

县档案馆木里杨智骆克农林部政府副县长贡嘎山美国学者交通状况文字说明

猪食盐中毒的症状及防治措施

食盐是猪生长发育不可缺少的营养类物质,适量的食盐可以增进食欲,促进生长,并能促进消化和新陈代谢,保证其正常的身体活动需要。但如果喂量过多会导致中毒效应,甚至造成死亡

期刊

食盐中毒防治症状猪生长发育促进生长新陈代谢营养类

高职院校学生社会适应能力的调查分析

[摘要：社会适应能力是社会对人才素质的基本要求之一，也是学生得以全面发展的主要能力之一，只有具有较强适应能力的人，才能获得更广、更充分的生存空间及发展空间。对大学生来说，社会适应能力就是他们在大学生活中为达到与其所处环境和谐状态所必须具备的一种综合能力，这种综合能力将学习适应能力、社会交往适应能力、工作适应能力及生活适应能力等兼顾于其中。高职院校作为国家教育的重要组成部分，要重视学生社会适应能力

期刊

高职院校社会适应能力培养高职学生

省人大政法委员会领导视察省档案局

期刊

夜深沉档案员

牦牛出败病的防治

牛出败是牦牛常见的一种疾病,四季均可发病,该病发病快,死亡率高,若不及时得到控制,可造成巨大的经济损失。因此,牦牛出败病的防治具有及其重要的经济和社会意义。

期刊

牦牛出败病防治甘南

一起仔猪链球菌与副猪嗜血杆菌混染的诊治

目前,在养猪生产中,对疫病的防治变的越来越复杂,往往是多种病原体混合感染。不仅有几种病毒或细菌导致的混合感染,也有病毒、细菌、支原体、寄生虫等数种病原引发的混合感染

期刊