论文部分内容阅读
在高校提倡信息化、数字化建设的大背景下,产生并积累了大量的学生数据,充分挖掘这些数据中潜在的关联和价值可以帮助学校老师更科学地开展学生工作和实现个性化服务。在校园中良好的人际交往和同学间的良好关系是大学生心理健康发展、社会交际能力培养和校园中健康快乐学习的基础,也是衡量学生心理健康与否的重要指标。因此,本文基于学校一卡通系统中的多源数据对学生校园好友关系进行研究,采用高斯相似度函数和PageRank改进算法完成了对学生个体的交友状态、班级凝聚力建设以及学生校园活跃度评定三个方面的研究分析,旨在了解学生线下的交友情况并及时发现校园活跃度较低、疑似孤立的学生群体,为学校的相关管理提供数据支撑,以便引导学生更健康的交友。本文主要从以下四个方面开展研究工作:1)基于当前对数据挖掘领域和校园大数据研究方面的相关理论和技术进行学习和研究,提出了本文研究课题,以及要采用的研究方法和主要核心算法;2)基于高校学生一卡通线下刷卡数据,提出学生“相遇”模型的设计,推测学生在校交友情况,更好地了解学生在学校生活状态。为精准计算学生间的相关关系引入高斯相似度计算方法,通过对学生在学校刷卡消费、刷卡进图书馆所产生的时间、地点信息进行高斯相似度分析,计算出学生间的关联度值,进而推测出每个学生的线下“好友”,或是与研究对象有相似生活作息习惯的同学,了解学生生活状态的同时,也可为有需要的同学提供好友推荐;3)将传统的网页重要度排序算法——PageRank算法思想引入到校园数据环境的分析中,并根据本文研究内容对传统的PageRank算法做相应改进,提出基于校园学生关系矩阵的活跃度分析算法,算法中结合学生关系强度对算法计算中用到的概率矩阵做权值分配,对传统算法中平均分配节点权值的方式进行了优化,有利于得到更接近真实的结果。另外,本课题研究中所用关系矩阵为学生群体同等时间积累下的刷卡数据,克服了网页排序研究中PageRank算法“对新加入页面不友好”这一不足。4)对算法的可行性进行实验验证和结果分析,并在数据源所涉高校相关部门的帮助下对所分析的结果进行实体验证。在对抽样个体的调研中,算法挖掘出的排名第一并且关系值较大同学是被研究学生真实好友的概率可达91%,在班级凝聚力情况的分析中,认为班级学生间的关联值越大,关联人数越多凝聚力越好。取两个班级的关系网作对比,被评为“十佳班集体”的班级学生关系网密集程度和学生关联值都要高于普通班级的学生关系网。在对校园活跃度较低群体的分析中,研究结果也符合学校的真实情况。同时,对学生线下“好友”的判定中也会存在“熟悉的陌生人”情况的发生,即两学生生活习惯相近但互相不认识的情况。所以对数据一卡通消费数据的分析还可以为有需求的同学提供一个好友推荐的平台,通过向其推荐与其生活习惯相近的同学来拓展该生的交际圈,改善活跃度较低群体的校园生活、学习状态。