基于大数据技术的网站用户行为分析系统的实现

来源 :科学与财富 | 被引量 : 0次 | 上传用户:hanxiqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文在对日志分析的基础上,结合日志收集发展出来的新技术新方法,将日志进行结构化处理,依靠现在的大数据技术进行存储,利用更高性能的数据分析工具进行数据的梳理,建立数据仓库,直至通过数据仓库中的数据自动生成的图表和报表直接呈现给需要改进产品的产品经理、想要了解网站现状的BI部口、以及负责做决断的公司决策者。
  关键词:大数据技术; 网站用户行为分析;Hadoop;Hive
  1. 引言
  随着互联网的飞速发展,互联网企业每天产生的日志高达数TB的数量级,如何高效且准确的从日志中提取网站运行的情况、PV、UV、活跃用户数量、活跃用户构成、用户喜欢的页面类型等等关键的数据信息,已经是目前世界上所有主流互联网企业所迫切解决的问题,我们想要更加详细的了解用户在网站上的行为记录,分析出用户对网站功能和内容的偏好等,来辨别高质量的用户和活跃的用户,维护好这些高质量和活跃的用户,才是促进整个企业的网站建设和个性化服务发展的根本动力,从而提升企业产品在整个互联网市场上的综合竞争能力。
  2. 关键技术
  自2008年google提出big data的概念以来,已经过去了10年,这10年中,大数据技术飞速崛起,hadoop相关技术作为时代的领军者己经被成千上万的企业所采用,一些大型的企业,Google、Apache、Yahoo、IBM、Amazon、Baidu、Alibaba、Tencent等等动辄部署数千台hadoop服务器来进行数据的存储、统计和分析。而在技术不断迭代更新的今天,又有大量的新技术在这个生态圈中出现,批量配置管理工具puppet、SaltStack、Ambari;系统管理及监控工具Hue、Karmasphere、Zabbix;序列化处理和调度管理工具Avro、Zookeeper;数据收集工具Scribe、Logstash、Flume、Graylog2、Fluentd;类SQL查询数据仓库Hive、Impala;流式处理工具Pig;并行计算框架MapReduce、Tez和Spark;机器学习数据挖掘的Mahout;列式存储数据Hase;流式数据导入导出工具Sqoop、Kafka、Hiiho;还有适用于搜索的Elasticsearch及可视化工具Kibana等等。
  本文包含的创新点和需要解决的技术难点如下:
  (1)Linux系统、MySQL、Hadoop、HBase、Hive、Sqoop、R、Eclipse等系统和软件的安装和使用;
  (2)大数据处理的基本流程的设计和优化;
  (3)选择合适的数据预处理方法;
  (4)在不同类型数据库之间进行数据相互导入导出;
  (5)使用R语言进行可视化分析;
  (6)使用Elipse编写Java程序操作HBase数据库。
  3. 研究过程
  本文的研究方法主要是结合大数据技术,通过各类大数据的系统软件和应用软件做实验研究。实验过程可以在单机上完成,也可以在集群环境下完成。建议计算机硬件配置为:500GB以上硬盘,8GB以上内存。本文对应的研究目标数据集是:网站用户购物行为数据集2000万条记录。研究的主要技术路线如下:
  (1)安装Linux操作系统
  (2)安装关系型数据库MySQL
  (3)安装大数据处理框架Hadoop
  (4)安装列族数据库HBase
  (5)安装数据仓库Hive
  (6)安装Sqoop
  (7)安装R
  (8)安装Eclipse
  (9)对文本文件形式的原始数据集进行预处理
  (10)把文本文件的数据集导入到数据仓库Hive中
  (11)对数据仓库Hive中的数据进行查询分析
  (12)使用Sqoop将数据从Hive导入MySQL
  (13)使用Sqoop将数据从MySQL导入HBase
  (14)使用HBase Java API把数据从本地导入到HBase中
  (15)使用R对MySQL中的数据进行可视化分析
  本课题研究的具体实验过程如下:
  (1)实验环境准备
  (2)本地数据集上传到数据仓库Hive
  (3)Hive数据分析
  (4)Hive、MySQL、HBase数据互导
  每个实验步骤所需要的知识储备、实验难点和任务清单如下:
  (1)实验环境准备
  所需知识:Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念及其原理、数据仓库概念与原理、关系型数据库概念与原理。
  实验难点:双操作系统安装、虚拟机安装、Linux基本操作、Hadoop安装、HBase安装、Sqoop安装、Eclipse安装。
  任务清单:1. 安装Linux系统;2. 安装Hadoop;3. 安装MySQL;4. 安装HBase;5. 安装Hive;6. 安装Sqoop;7. 安装R;8. 安装Eclipse。
  (2)本地数据集上传到数据仓库Hive
  所需知识: Linux系统基本命令、Hadoop项目结构、分布式文件系统HDFS概念及其基本原理、数据仓库概念及其基本原理、数据仓库Hive概念及其基本原理
  实验难点:Hadoop的安装与基本操作、HDFS的基本操作、Linux的安装与基本操作、数据仓库Hive的安装与基本操作、基本的数据预处理方法。
  任务清单:1. 安装Linux系统;2. 数据集下载与查看;3. 数据集预处理;4. 把数据集导入分布式文件系统HDFS中;5. 在数据仓库Hive上创建数据库。
  (3)Hive数据分析
  所需知识:数据仓库Hive概念及其基本原理、SQL语句、数据库查询分析。
  实验难点: 数据仓库Hive基本操作、创建数据库和表、使用SQL语句进行查询分析。
  任务清单:1. 启动Hadoop和Hive;2. 创建数据库和表;3. 简单查询分析;4. 查询条数统计分析;5. 关键字条件查询分析;6. 根据用户行为分析;7. 用户实时查询分析。
  (4)Hive、MySQL、HBase数据互导
  所需知识:数据仓库Hive概念与基本原理、关系数据库概念与基本原理、SQL语句、列族数据库HBase概念与基本原理。
  实验难点:数据仓库Hive的基本操作、关系数据库MySQL的基本操作、Sqoop工具的使用方法、HBase API的Java编程、Eclipse开发工具使用方法。
  任务清单:1. Hive预操作;2. 使用Sqoop将数据从Hive导入MySQL;3. 使用Sqoop将数据从MySQL导入HBase;4. 使用HBase Java API把数据从本地导入到HBase中。
  作者简介:
  宋曼(1984.03-),女,汉族,湖北天門人,专任教师,党员,副高,硕士,主要研究方向:Android开发、Web开发
其他文献
摘 要:对市政道路园林绿化养护施工和管理问题进行研究的目的在于美化道路环境,优化市政道路建设,给人们提供舒适的生活环境。因此,本文首先阐述了市政道路园林绿化养护施工和管理的必要性,然后分析了市政道路园林绿化养护施工管理现况,提出了市政道路园林绿化养护施工和管理的举措。  关键词:市政道路;园林绿化;养护施工  随着人们生活质量的持续提升,人们对生存环境提出了更高的要求。国家提倡节能环保事业,市政道
期刊
摘 要:测绘工程对当前社会发展具有积极意义,被广泛应用在诸多领域中,因此,如何保障测绘工作质量,确保测绘工作高效、顺利实施逐渐引起了人们的关注。测绘工程的质量管理与系统控制是测绘工程单位建立完善质量控制监督体系的前提,也是测绘工程主管部门建立与市场经济相适应的质量管理体系的基础。随着现代技术的飞速发展,测绘工程的功能日趋完善,其应用范围也迅速扩展,本文通过分析测绘工程质量管理与系统控制的内涵、特点
期刊
摘 要:近年来,随着国家对传统文化传承和发展的渐趋重视,使得传统文化也具备了数字化的现代表达,逐渐成为大众文化消费的新趋向。数字经济的快速发展,为传统文化的开发和传播提供了新思路、新导向。本文将以腾讯公司对敦煌文化的开发为例,深入探究其如何打破传统文化与流行文化的二元对立,并探讨传统文化“数字化”传播的未来发展趋势。  关键词:敦煌文化;数字创新;文化传播;腾讯公司  腾讯公司作为我国最大的互联网
期刊
摘 要: 本文分析了烯烃聚合用的内给电子体的国内文献,概述了文献研究的整体情况,并对重点内给电子体技术进行了介绍,旨在为国内相关化工企业提供参考。  关键词: 文献;内给电子体;烯烃;催化;Ziegler-Natta  Ziegler-Natta催化剂(以下简称Z-N催化剂)自问世以来,经过60余年不断的完善和改进,已经成为了石油化工領域最重要的催化剂之一。在其发展历程中经历了五代催化剂的演变,为
期刊
摘 要:对IPC、CPC分类及其特点进行阐述,分析得出CPC能够提供更精细的分类,缩小目标文献的范围,提高检索效率,并结合点火装置领域的实际案例对分析结果进行验证。  关键词:点火装置;CPC分类号;检索  一、引言  CPC联合分类体系[1],其以IPC为依据,以ECLA分类体系为蓝本,并融合了UC分类的实践经验演化而来。CPC倾向于应用位置优先的原则,只要对检索有利,将所有的应用分类位置全部给
期刊
摘 要:在全球经济一体化背景下社会各行业和产业分工更加精细化,科技发展和进步也极大的推动电子行业的迅猛发展,为此电子制造业,设计生产外包委托加工生产形式现已成为一种行业内部常见模式,这种模式就叫做ODM模式。  关键词:电子制造行业; ODM模式; 质量管理  引言:  ODM模式下的质量管理是一个持续的质量改善管理过程,按照PDCA循环的原则,分四个阶段,第一阶段:质量计划,即供应者质量审查,根
期刊
摘 要:对目前传统的GPS系统组网以及存在的缺点进行介绍,针对传统GPS系统的不足描述了新型的智能双星授时系统的组网以及优点,对2种方案进行了对比,并举例论证了其应用的可行性。  关键词:基站同步;GPS系统;智能双星授时  1 前言  授时,是指通信网络中的设备,通过获取统一的时钟源信号,来实现网络设备之间的同步,当前移动通信网络普遍采用卫星的星载钟作为时钟源。无线通信系统属于基站同步系统,基站
期刊
摘 要:现如今是信息化的时代,在这一时期,各个行业都开始采用信息化技术来推动行业的发展,信息化技术的应用也也衍生出了多种工程技术,电气自动化工程就是其中最重要的一个,电气自动化工程已经逐渐渗透到人们的生活中,并在工业生产领域中得到了广泛的应用。而随着电气自动化的发展,其在建筑行业中也开始被逐渐的应用,本文就建筑电气工程的智能化技术应用进行了详尽的探究。  关键词:建筑;电气工程;智能化技术  1
期刊
摘 要:目前社会经济的稳定发展,推动了我国建筑行业的不断完善。建筑工程中其施工技术与施工的结构随着科技的进步也在逐渐的更新。在建筑工程中其主要的施工结构还是框架剪力墙结构,这种结构中比较常见的两个重要组成部分就是钢筋混凝土框架与混凝土剪力墙结构。它具有独特的优势不仅施工比较方便,而且建筑结构的质量也有保障,所以很多的建筑施工企业对于框架剪力墙结构适用概率较高。  关键词:框架剪力墙;建筑工程;施工
期刊
摘 要:根据东胜高空气象探测站近几年来使用GTC2型探空数据接收机的经验,介绍了在台站L波段探测设备维修技术和维修仪器有限的情况下,利用接收机可快速判别L波段雷达、基测箱或探空仪的故障,并针对故障现象提出解决的办法。  关键词:大气探测;探空仪故障;接收机;雷达  引言  L波段高空台站大多已配备GTC2型探空数据接收机,解决了高空台站使用L波段探测系统无配套备用接收机的历史,也使基层台站少了一份
期刊