论文部分内容阅读
至今为止,中国互联网已经有了一定的成熟规模,互联网应用也从单一化逐渐走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式,甚至影响着整个社会的进程。在互联网快速发展的背景下,我们逐步走进了“大数据时代”,任何一个简单的行为都会产生数据,城市数据、企业数据、网站数据、购物数据等都成为我们虚拟与现实生活的重要组成部分。面对这些数以千计的数据以及它们多种多样的数据结构,传统的关系型数据库已经不能很好地解决大数据带来的问题,单机的统计和分析也变得力不从心,而由谷歌提出的MapReduce编程模型可以快速有效地处理大数据。Hadoop云平台就是基于MapReduce编程模型的一个分布式处理的软件框架,因此近几年,hadoop云平台已成为分析大数据所必不可少的一个工具。本文首先介绍了研究的背景以及意义,然后先从网络业务的角度,对网络业务流量特征有初步认识,接着对大数据下网络用户行为分析的概念、网络用户行为分析的内容、网络用户行为分析的意义以及网络用户行为分析的方法进行介绍。之后,简要介绍了本文使用到的Hadoop系统技术,包括使用到的HDFS分布式文件存储系统、MapReduce编程模型、Hbase分布式存储系统、数据分析工具Hive。最后,重点介绍了本文系统框架以及数据分析处理的过程。本文对企业网络用户的HTTP报文、DNS报文以及主机流量表进行分析。主机流量表是以主机用户的角度对我们自己定义的复合会话进行进一步统计,分别得到了主机流量实时统计表、主机流量日统计表以及主机流量月统计表。之后,我们对主机流量实时统计表以及主机流量日统计表的某些属性进行分析,并对其进行可视化来分析企业网络用户行为。最后,验证时间序列分析中的自回归积分滑动平均模型(Autoregressive Intergrated Moving Average Model,简记ARIMA)是否能对单个企业每天的上网流量总数进行短期预测。