论文部分内容阅读
自打互联网出现以来,人们的工作生活方式都发生了翻天覆地的变化。在“互联网+”模式的新环境下,互联网不断地渗透到各个领域中。互联网应用的不断发展,积累了海量的网络行为数据,产生了“大数据”。随着“数字化校园”到“智慧校园”相关概念的不断提出,国内几乎所有高校都逐步推出了自己的校园网站、微信公众号和智能办公平台等各种教育教学服务系统,同时高校也成为了“大数据”应用的阵地。网络应用在大学生群体中同样占有首要地位,校园外各应用平台上也记录了海量的学生行为数据。学生行为对学生的学业成绩、学习状态都有影响。有效的引导学生行为是促进学生全面发展的必要条件。因此,高校教育管理者经常会对学生行为进行分析,以便及时发现问题、及时纠正。传统的学生行为分析主要以收集学生行为数据,利用数理统计等方法进行行为分析。在“互联网+教育”的新形势下,学生行为数据的产生已经不局限于校园,早就通过网络遍布世界各地。学生在校园内外各平台上应用都会留下记录,学生行为就已经可以很直接的表现在校园内外各平台中了。因此,教育管理者可以直接通过各平台收集学生行为数据进行分析,然后做出管理决策。由于各应用平台中记录的学生行为数据呈现多样化的特点,更多的是以诸如图片、文字、音视频等非结构化的数据形式存在。对教育管理者的分析工作带来了挑战和机遇,现代教育、教学管理发展的一个新趋势就是要综合考量多方面的评价指标来衡量教育、教学管理工作水平。对于校外应用平台上的学生行为数据,本课题选择网络社区中比较有代表性的平台,全球最大的中文社区----百度贴吧。百度贴吧运营多年,积累了相当大的数据量。在高校贴吧类目中同学们往往就同一个话题各抒己见,这些信息对学校管理决策很有参考意见。贴吧上同学们都是用文本进行阐述,产生的数据都是半结构化的。本课题针对百度贴吧数据的真实、客观、全面等特点,使用Weka开源工具,采用大数据中的数据挖掘技术在文本聚类应用中的K-Means和EM方法成功地对百度贴吧网站上收集到的学生行为数据进行文本聚类挖掘,以此来辅助教育管理者的学生行为分析工作。本文的愿景是希望以本课题的研究为铺垫,能够为教育管理者在学生行为分析工作中提供一种新的思路。