论文部分内容阅读
网络已经成为人们学习、工作和生活中必不可少的重要组成部分。校园网作为高校教学、科研和信息服务的基础平台,已经成为衡量高校信息化建设和智慧校园建设的重要指标之一。随着校园网中各种网络应用的增多,产生了以日志形式存在的海量网络用户行为数据。与此同时,校园网规模的日益扩大和用户人数的增长,给校园网优化升级和日常运维管理带来了许多问题。另外,学生用户过度使用网络不仅给自身的学习、生活和身心健康带来了巨大危害,而且为高校学生教育管理工作提出了新的要求。因此,校园网用户网络行为分析,有助于高校网络管理部门制定和完善更加合理有效的网络管理制度和日常运维策略;为广大师生提高安全、快速和可靠的网络环境;有助于高校学生管理部门及时了解和发现学生的思想动态和学习状况等有用信息。本文在西北民族大学校园网基础上,以校园网络核心交换机H3C-12508网络镜像端口用户访问网络的点击流日志和深蓝计费网关Srun3000的用户登录数据作为研究对象,主要针对校园网用户中学生用户在线行为展开研究。本文主要研究工作如下:1.搭建了包含Hive和Sqoop子项目的分布式Hadoop实验环境;2.在Hadoop集群下,预处理校园网用户行为数据和进行用户类别划分;3.采用Hive QL查询技术,对校园网用户群体行为从五个方面展开研究,即不同时段在线用户人数分析、用户在线时间长度分析、用户访问的目的地址分析、用户在线流量分析和学生异常行为分析。用户访问的目的地址分析中,为了加快目的地址统计和排序的速度,编写了一个Linux Shell脚本用于目的地址统计和排序,并取得了良好的运行效果。通过对不同年级、不同培养层次和不同学院学生用户在线时长、使用网络流量和在线人数等方面进行对比研究,并对不同学生用户群体中出现网络行为异常的原因作了初步的探讨和分析,给出了具有针对性的意见和建议;4.对学生用户群体行为展开聚类分析。首先利用K-means聚类算法并行化的思路,找出了该算法的实现方法;接着编写Mapper函数和Reducer函数实现K-means算法;最后,从用户在线时长、下行流量和上行流量角度出发,对用户网络行为进行聚类研究,将用户划分为5个类别,并对每个类别产生的原因和其特征进行了深入细致的分析。总之,上述校园网用户行为研究,对于高校网络管理和学生管理具有重要的参考价值和指导意义。