论文部分内容阅读
随着高校校园网的建设逐步普及,校园网成为了学生上网的最主要途径,同时在出口防火墙上产生了大量的网络行为数据。在这些海量数据的背后,还藏匿着一些人们凭直觉和经验很难发现的信息。然而,传统的数据库技术很难从大量的数据中获取有价值的信息。分析学生用户的网络行为数据,可以有效地帮助学校管理者和学术专家了解学生的网络行为偏好以及不同学生用户群体的各种网络行为,网络行为是否影响学业成绩等。通过采集学校网络中心防火墙服务器上记录的学生大量网络行为日志,利用Web使用挖掘的方法,对数据进行处理和转换,引用了N-gram语言模型,根据日志数据中URL(Uniform Resource Locator,统一资源定位符)的特征提取出关键词,根据关键词对URL进行分类,从而完成根据网页行为分类模型对用户浏览的网页进行分类的目的,根据用户对不同类型的网站的点击量,计算出用户对不同网站类型的浏览占比。最后通过与学生学习成绩的关联分析,得出网页浏览主题与学生成绩的相关性结果,并对结果进行解释与评估。文章总体上分成五个部分,首先在第一章主要阐述了用户行为分析的研究现状和意义和论文的主要内容以及组织结构,第二章分析了与文章相关的理论知识与技术应用,其次第三章研究了基于URL特征的网页分类算法,从采集到的日志数据中分离出URL,从URL中提取网页关键词,根据关键词将URL归类,并用分类算法验证了网页分类的准确度,第四章对网络行为分类进行实现,将学生样本的全部日志数据进行分类,为每一个学生样本建立网页浏览的兴趣维度,并对分类结果进行解释分析,最后第五章将学生网页浏览分类结果通过关联规则与学生课程成绩相关联,得出结果并解释分析。