论文部分内容阅读
国内的各个高校先后建设了自己的校园网络,实现了教育信息化和互联网化。快速便捷的校园网络为高校师生提供了丰富的资源,开阔了学生的眼界。用户在使用网络获取信息的同时,会产生大量的访问数据,从海量的用户访问数据中挖掘出有价值的信息成为近年来的研究热点。在复杂繁多的日志中提取有价值的信息并对这些信息进行分析和建模是本文研究的主要内容。本文以学校信息中心的DNS日志为数据源,所做的主要工作如下:(1)对原日志数据过滤和清洗。去除重复和无用的数据,为以后的数据分析打下基础。(2)对日志中用户访问域名分类的研究。在DNS日志中,用户访问的域名是一个非常重要的字段,通过对域名的归类,能够得到用户的部分网络访问特征。本文采用域名分类库和域名分类器两种工具相结合的方法对域名进行主题归类。域名分类库的建立是通过网络爬虫爬取域名分类网站得到的。域名分类器则是采用机器学习算法在大量的已经归好主题类别的域名基础上训练得到的,主要作用是对未在域名分类库中匹配到的域名归类。(3)对用户网络访问特征聚类的研究和分析。通过对用户访问的域名标签化处理,得到用户行为特征向量,之后进一步对这些数据做聚类分析,得到不同的用户群的访问特点。本文分析了K-means聚类算法的不足之处,采取Canopy算法和K-means相结合的方式来对用户聚类分析。针对课题数据存在数据量大且维数较多的特点,本文实现了基于Map Reduce编程框架下的分布式K-means聚类算法,实验证明,该算法能够有效的根据用户特征聚类。(4)用户网络行为特征的统计分析。本文从多个方面对学生上网行为特征进行了分析,包括不同时段用户访问活跃度、用户访问域名主题分析、域名访问量分析、各个用户群的特征分析等等,在多个维度上展现了用户的访问特征。本论文通过对北京交通大学信息中心的DNS日志挖掘和分析,得到用户的上网行为习惯和访问偏好,最终得到学生的网络行为特征,旨在引导学生合理的应用网络,为全校师生提供更优质的网络服务,为校园管理人员掌握学生的网络使用状况提供依据。