基于Hive的海量Web日志分析系统设计研究

来源 :软件 | 被引量 : 0次 | 上传用户:chuanguowuhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:针对于传统对海量数据处理和计算的瓶颈,提出了一种基于Hive的海量web日志分析机制。通过Hadoop分布式系统架构以及Hive数据仓库对海量web日志做了分析处理,并对用户的浏览行为进行了分析研究。对用户浏览行为中的浏览量和跳出率、IP数、版块热度排行的分析结果对于网站建设和大数据分析系统优化都具有一定的指导意义。
  关键词:Hive;Web日志;Hadoop;网站建设
  中图分类号:TP391 文献标识码:A DOI:10.3969/j.issn.1003-6970.2015.04.021
  0.引言
  随着互联网技术的普及,网络上的信息量呈指数级增长。毋庸置疑,web已经是世界上最大的信息系统。作为这个系统中重要的组成部分之一,web日志记录了用户浏览网页的所有信息。通过处理和分析这些日志信息,我们可以了解到用户的行为特征,从而改造网页的布局,提高网站的流量,进而给企业带来更高的收益。
  通过数据分析技术和数据挖掘技术,从web日志中获取用户的行为特征已经成为商业界关注的焦点。早在1996年,Cockburn,Jones等人就对网页用户浏览行为做了调研分析。20世纪90年代末,Sliverstein,Maraus等人对Web搜索引擎日志进行了大规模的分析。
  然而,随着用户量的急剧增加,web日志记录的信息量也越来越庞大。传统方法在处理海量数据集的时候一般都是通过分治的思想或者采用多线程多任务的方法来处理。如果仅仅靠提升计算机的存储量以及性能显然不能从本质上解决这一问题。本文通过采用hadoop平台,设计并实现了基于Hive的海量web日志分析系统。
  1.相关技术介绍
  1.1Hadoop分布式系统
  HadoopTM作为Apache软件基金会下的一个分布式开源框架,在众多的大型企业中得到了广泛的应用。分布式文件系统HDFS(Hadoop Distributed File System)和Map/Reduce并行编程模型是Hadoop的两大核心。Hadoop主要是通过HDFS来实现分布式存储的底层支持,并且通过Map/Reduce来实现分布式并行计算任务处理的程序支持。所以用户能够在不了解分布式底层细节的情况下开发分布式程序。
其他文献
摘要:基于国产基础软硬件的自主可控技术是建立信息安全的重要保证。为了提高国产平台的业务应用系统的性能,本文提出了应用性能优化的技术,包括典型基础软硬件、数据库、中间件性能的优化,从实验结果看,这些技术提高了业务应用的性能。  关键词:自主可控;示范应用;性能优化  中图分类号:TP29 文献标识码:A DOI:10.3969/j.issn.1003-6970.2015.02.002  0 引言  
期刊
摘 要: 随着教育信息化的发展,深度学习逐渐成为教育领域的热点话题。本文采用文献计量学分析和共现分析方法,运用Cite Space图谱分析软件和Excel软件对2009年至2018年间Web of science核心合集SSCI数据库中的深度学习相关文献进行分析处理,总结了深度学习领域的基本现状以及重要主题和进展,并对国内深度学习研究提出几点启示和建议,以期为深度学习的进一步研究提供有益的借鉴和参
期刊
摘要:准确、及时、高效的气象信息是地方党政领导和决策指挥部门指挥工农业生产、防汛抗旱和防灾减灾等工作的重要科学依据。以提高决策气象服务中气象资料查询检索与分析能力为目的,研发了安徽省决策气象服务支撑系统。该系统由数据库、数据接入、Web网页客户端和后台数据处理系统等4个部分组成,实现了气象数据快速检索查询与绘图、气候资料极值分析、气象灾害查询以及历史灾害性天气个例资料查询等功能。该系统已业务应用两
期刊
摘要:近年来国内网都在积极规划和建设智能电网,而智能电网中配电线路故障定位一直是个研究的热点和难点。其中故障定位的方法有很多,本文主要针对配电网中故障指示器定位的准确性一直没有得到有效的解决,从而设计了一套故障定位算法以及故障定位程序。该算法根据故障指示器定位的原理以及云南电网实际线路情况,通过建立了配电网网拓扑模型,采用逻辑位置标示和故障事件集的概念,通过逻辑分析从而得出故障位置,并且判断故障类
期刊
当前,中国已成为世界工业机器人最大的市场。据统计,今年1-7月我国工业机器人产量已接近7.2万套,同比增长57%。近五年规模增速基本保持在20%以上,成为全球机器人产业规模稳定增长的重要力量。同時,国内市场对工业机器人的需求也持续大幅增长,成为全球最重要的机器人市场。  在研发方面,我国坚持以点带面、小步快跑的原则,一方面抓住优势领域实现快速突破,另一方面强化基础研究推动整体提升。目前,语音识别、
期刊
摘要:应用4G无线网絡通信及嵌入式技术设计了一款无线数采控制器,该数采控制器采用S3C2440作为主控制器。阐述了系统的硬件和软件结构,硬件设计介绍了硬件的构成及功能;软件设计包括Linux嵌入式系统驱动程序开发、调试,应用程序软件的开发、调试等。  关键词:4G无线网络通信;嵌入式系统;数采控制器;S3C2440;Linux  中图分类号:TP929.5文献标识码:ADOI:10.3969/j.
期刊
摘要:MapReduce作为数据处理的概念框架对计算、存储、应用等分布式资源进行大规模可扩展的整合,结合互联网技术为煤矿企业用户提供计算和存储服务并建立安全生产大数据分析系统,这必将成为提升煤矿安全生产的信息手段之一。文中实例是基于HadoopMapReduce大数据系统对矿井瓦斯涌出量进行了预测仿真分析,能为矿井瓦斯治理和安全生产提供了可靠的依据。  关键词:Hadoop;MapReduce;云
期刊
摘要:在对Linux操作系统的网络驱动进行了研究后,设计和实现了一种基于驱动代码分离的驱动框架,将驱动程序分为在用户态执行的部分和在内核态运行的内核模块部分,用户态的驱动部分主要是调用频率较低的性能无关的代码,如设备的状态信息获得等;在内核态运行的驱动内核模块包括驱动代码中的关键部分,如中断响应、数据传输等。以PCnet32网络驱动为例,实现了驱动程序代码在用户空间和内核空间的分离,在一定程度上实
期刊
摘要:从提高专业群共享度和品牌效应出发,从“群内协同、校企合作、校际联盟”信息技术服务外包专业群网站建设模式、信息技术服务外包专业群建设框架设计、以课程为核心的精品资源共享课建设、专业群信息化平台建设途径探等方面,探讨了高职专业群信息化平台建设方法,并成功应用在本院信息技术服务外包专业群建设中。  关键词:信息技术服务外包专业群;共享平台;建设框架  中图分类号:TP3 11.5 文献标识码:A
期刊
摘要:基于马尔科夫随机场(MRF)的方法是图像分割中一个比较成熟的分割方法,本文介绍了马尔科夫随机场的数学模型和在图像分割过程中的实现,将图像分割过程中存在的问题转换为函数的优化问题,在能量模型中对特征场模型和标记场模型的优化以解决对势函数取值的依赖。在后续的组合优化问题中,采用模拟退火算法来解决,并针对具体的算法的计算问题提出确定的优化算法。  关键词:马尔科夫随机场;领域系统;势函数;模拟退火
期刊