大数据背景下的学生孤独预警模型

来源 :现代信息科技 | 被引量 : 0次 | 上传用户：breeze001

【摘要】

：

【作者】

：

余琳　许婷　李超　廖莉莉　许可　解攀科

【出处】

：

现代信息科技

【发表日期】

：

2019年23期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：大数据时代背景下，关注大学生心理健康，要借用技术手段科学、客观推进大学生心理健康教育工作。目前研究学生心理健康大多采用问卷调查的形式，所得结果取决于被调查者的填写情况，不一定真实反映其内心的想法，并且调查个案有限，不能很好地反映总体情况。本文以华中师范大学为例，通过一卡通消费明细、图书门禁明细得出学生间的共现频率，从而得出学生的朋友关系表，得到疑似孤独者名单，结合学生的就业情况，得出朋友关系较少的学生未就业率高于朋友关系多的结论;再运用DecisionTreeClassifier模型，挖掘出各个指标对就业成功的影响力，并基于训练好的模型预测哪些学生有就业失败的可能，可作为重点关注对象。分析结果与日常生活反馈较一致，对于应用大数据在高校学生管理工作有一定的借鉴作用。
　　关键词：大数据;朋友关系;消费关系;图书馆关系;决策树算法;各指标影响力
　　中图分类号：TP183 文献标识码：A 文章编号：2096-4706（2019）23-0001-04
　　Early Warning Model of Students’Loneliness under the Background of Big Data
　　——Taking Central China Normal University for Example
　　YU Lin，XU Ting，LI Chao，LIAO Lili，XU Ke，XIE Panke
　　（Information Office of Central China Normal University，Wuhan 430079，China）
　　Abstract：Under the background of the era of big data，paying attention to the mental health of college students，it is necessary to use scientific means to scientifically and objectively promote the mental health education of college students. At present，the research of students’mental health mostly adopts the form of questionnaire survey，which depends on the filling of the respondents，not necessarily reflect their inner thoughts，and the investigation cases are limited，which can not reflect the general situation well. This paper takes Huazhong Normal University as an example，through the details of the consumption of smartcard and the access details of the library to get the list of students friendship，and get the list of suspected lonely students. Combined with the employment situation of students，it is concluded that the unemployed rate with fewer friends is higher than that of friends;using the DecisionTreeClassifier decision tree model to discover the influence of various indicators of employment success，and predicting which students fail in employment based on the trained model can be the focus of attention. The analysis results are consistent with the daily life feedback，and it has certain reference for the application of big data in the management of college students.
　　Keywords：big data;friend relationship;consumption relationship;library relationship;decision tree algorithm;influence of various indicators
　　0 引言
　　在大数据时代背景下，应用数据说话，应有效利用数据挖掘和学习分析产生迄今看不见、不被注意的数据与结论，为高校管理工作提供新思路。尽可能地收集全面的數据，再进行分析、挖掘，客观找出疑似孤独者名单，帮助就业处、院系辅导员查找可能存在问题的学生、提前做好心理健康指导、就业帮扶，物质帮扶等工作，帮助这些学生学会与人沟通交流，纾解心理抑郁，引导学生高质量就业、高幸福感生活，提高学生心理健康危机预警实效性。
　　1 现状分析
　　2011年2月23日，教育部印发了《普通高等学校学生心理健康教育工作基本建设标准（试行）》的通知，推进大学生心理健康教育工作科学化建设，强调要加强大学生心理危机预防与干预体系建设[1]。目前我国各高校相继开展了心理健康普查工作，有关调查结果表明：大学生的心理健康状况较差，经常存在心理问题的大学生约占总数的1/5，而有时有心理问题者则高达2/3左右。常有孤独感的大学生约占28.6%，少有孤独感的约占31.7%，从未感到孤独的学生几乎没有[2-4]。孤独、消极的情绪如抑郁、自卑，会危害学生身心健康，影响学习、生活和就业发展。目前研究学生心理健康的论文大多采用调查问卷的形式，得到的结果取决于被调查者的填写情况，不一定真实反映了其内心的想法;并且问卷调查的个案较少，较难保证每个学生都填写问卷，不能很好反映总体。　　2 研究内容
　　各高校主要是通过新生入学时的心理疾病筛查、日常学生间的反馈和心理辅导站老师的心理访谈发现与解决学生心理健康问题，出于保护隐私的考虑，大多高校的学生心理诊断结果及问题名单并未公布，缺乏基础数据源，心理健康的特征难以量化。
　　本文以华中师范大学为例，采集了2011～2015级共22448名本科生的学生基本信息（性别、民族、生源地、政治面貌、婚姻状况、是否独生子女等）、学籍信息（所在年级、院系、入学年月）、家庭经济情况（是否低保、家庭类别、家庭人口、家庭收入来源等）、毕业生求职信息（是否就业、就业年度）、学习成绩信息（课程成绩、学分）、奖学金信息（奖学金次数及金额）、荣誉奖励信息（次数）、图书借阅信息（借阅数量）、一卡通消费信息、图书馆门禁信息十大数据，其中2011～2014级的本科生17828人，1127人未就业。本文寻找孤独的人，孤独特征难以定义，直接寻找难度较大，研究思路采用排除法，先找出不孤独的人，再用全体减去不孤独的人，即是孤独的人，再去验证。
　　不孤独即朋友关系多，有朋友一起吃饭、一起去图书馆，用数据特征表示即是同一食堂刷卡时间接近且次数较多、进入图书馆刷卡时间接近且次數较多。如果刷卡时间接近的定义过大则会导致朋友关系网过大、计算量太大;如果刷卡时间接近的定义过小则会导致朋友关系网较小，过滤了原本是朋友的人;考虑日常的实际食堂消费情况，一起去同一食堂可能不同窗口刷卡，刷卡时间相差不会太大，故本文将刷卡时间接近定义为5分钟内。
　　2.1 数据处理
　　一卡通消费信息每月约200万条明细数据，计算同一食堂任意两个刷卡时间在5分钟内的学生人数的记录数较多，因数据量较大，选取每个年级在大三4、5、6三个月的消费记录作为样本数据，寻找消费朋友关系网。2011级学生对应的是2014年4、5、6三个月消费关系明细，2012级学生对应的是2015年4、5、6三个月消费关系明细，2013级学生对应的是2016年4、5、6三个月消费关系明细，2014级学生对应的是2017年4、5、6三个月消费关系明细，2015级学生对应的是2018年4、5、6三个月消费关系明细。消费关系明细表结构如图1所示，xny代表每月，xh1代表2011级的某个学生，time1代表xh1学生的消费刷卡时间，xh2代表与xh1消费时间5分钟内的所有学生，time2代表另一学生的消费刷卡时间且与time1相隔5分钟之内，st代表食堂编号。
　　基于此消费关系明细表统计每个食堂的相遇关系，即统计两两相遇的次数及在该食堂消费的总次数。再将各食堂的相遇关系明细取相遇次数大于10的，unionall得到总消费次数表，再按xh1、xh2分组求和，形成食堂消费的朋友圈关系，如图2所示。
　　基于此方法同样可以得到图书馆的朋友圈关系。
　　2.2 数据分析
　　根据得到的食堂消费的朋友关系表和图书馆的朋友关系表，随意挑选几组学生数据，通过其基本信息联系其辅导员及同年级学生，分析并验证是否是真的朋友关系。
　　学生2013****62与学生2013****56，图书馆相遇273次，同一食堂相遇次数149次。通过学生基本表找出两个人的特征如图3所示，这两个女同学都来自经济与工商管理学院，平均学分绩都很高，都得了两次奖学金，一个7000元，一个4000元。一个是群众，一个是共产党员，都是汉族，都来自于城镇。一个是福建人，一个是湖北人。都顺利就业。
　　学生2012****51与学生2012****94，同一食堂相遇次数213次，图书馆相遇22次。通过学生基本表找出两个人的特征，发现这两个学生都来自社会学院，都得了两次奖学金，都是2000元。一个是群众，一个是共产党员，都是汉族，来自于非贫困县和城镇（都不是来自农村或大城市的）。一个是河北人，一个是山东人。都顺利就业。
　　学号2014****58与2014****81，同一食堂相遇次数134次，图书馆相遇20次。发现这两个学生都来自计算机学院，都是汉族，一男一女，平均学分绩都不高，一个78.15，一个75.72，两个人都没有顺利就业。经辅导员验证，确实为男女朋友。
　　经验证，以上随机挑选的三组朋友关系，均确实属于真正的朋友关系。再回到本项目中，采用排除法，寻找孤独的人。以2011～2014级全体本科生作为样本数据，共17828人，有食堂消费朋友关系表的有20585人，有图书馆的朋友圈关系表的有43840人（此处两个数字均大于样本数据17828，是因为按照前文提到的数据处理原则，2011～2014级的全体本科生作为xh1，xh2可为符合刷卡时间范围内的全校师生，并不局限于同年级的学生），食堂消费朋友关系与图书馆的朋友圈关系取交集得到朋友较多的有15312人，既不在食堂消费朋友关系表中，也不在图书馆的朋友圈关系表中的有1932人。具体如图4所示。
　　关联学生的就业信息数据，将疑似孤独的学生1932人按年级性别查看学生分布概况，如表1所示，115人未就业，未就业率5.95%。其中2011级疑似孤独的学生就有1194人，占一半以上，但华中师范大学图书馆是2015年4月才安装门禁的，也就是说门禁数据是2015年4月以后才有的，而按照前面的规则，2011级大三时应对应2014年的门禁数据，故2011级学生的图书馆朋友圈关系可能不准确。将2011级的孤独人数1194人减掉还剩738人，其中76人未顺利就业，未就业率10.30%。而朋友关系较多的15312人中只有608人未顺利就业，未就业率3.97%。可得到结论：朋友关系较少的学生未就业率高于朋友关系多的学生。
　　2.3 数据验证
　　通过食堂消费朋友关系与图书馆的朋友关系可以得出朋友关系少的学生名单，关联学生就业数据可以得出朋友关系少的就业失败可能性高于朋友关系多的结论，但如果能通过算法正面验证就业失败有哪些影响因素，则可能更有利于证明结论的可信性。　　通过前面的收集的样本数据，2011～2014级四年的本科学生名单17828人，1127人未就业。将就业是否成功作为目标变量，将25个指标（性别、民族、生源地、国籍地区、政治面貌、婚姻状况、所在年级、院系、入学年月、是否低保、家庭类别、家庭人口、家庭人均收入、人均月收入、家庭主要收入来源、毕业年度、总成绩、总学分、奖学金次数及金额、荣誉奖励次数、图书借阅数量、一卡通消费次数及金额信息、图书馆门禁次数）作为自变量，使用决策树模型，找出哪些指标是影响就业成功的因素。
　　决策树是机器学习中常见的一种用于分类和回归的非参数监督学习方法，目标是创建一个模型，通过从数据特性中推导出简单的决策规则来预测目标变量的值。决策树便于说明和理解，树可以可视化表达;需要的数据准备不太难。故本项目使用python的机器学习算法库scikit-learn中的DecisionTreeClassifier算法。
　　调用算法之前，我们把数据随机分为训练集和测试集，采用train_test_split随机划分函数，训练集的数据主要用于构造决策树，测试集主要用于计算错误率，看分析训练后的决策树模型能不能使用。
　　决策树数据模型中树的最大深度是一个关键参数，深度设置较小，会导致欠拟合，训练集的错误率较高;深度设置较大，会导致过拟合，训练集的正确率很高，但测试集的错误率较高。想要较好地调研决策树分类算法，首先需要找到一个合适的max_depth值。
　　将最大深度设为1～40，计算每个值的预测情况并画图，所得结果如图5所示。
　　根据图5，选取max_depth=21，再进行模型训练，计算每个指标对目标变量的影响力。得到训练集准确率0.9859，测试集准确率0.8937，以及每一个指标对目标变量的影响力。如图6所示，发现deal_cs、deal_money、tsg_cs、tsg_ jybs（消費次数、消费金额、进入图书馆次数、图书借阅本数）四个指标对就业是否成功的影响力相对较大，其次是zcj、zxf（总成绩、总学分）。再次验证了之前的结论，就业失败可能性与消费关系及图书馆关系有相关性。
　　3 应用与验证研究
　　预测2015级本科生情况（总4620人），首先找出不在消费朋友关系表和图书馆朋友关系表中的名单，有500人，可得到疑似孤独者名单。再用这500人名单用之前训练的决策树模型去预测就业失败的人数，发现基于此模型，有153人会就业失败，可被认为是重点关注孤独对象。为了实际验证模型的准确性，将153人按院系进行分布，其中计算机学院有11人，经辅导员与同学反馈，其中1人是2014级降级下来的，另10人中有2人确实存在某些问题，其余8人不明显。
　　本项目研究主要采用的是校内数据，如果吃饭作息规律与一般人不同的，比如点外卖，外卖网络数据暂时获取不到，可能也会被该模型列为孤独者名单。本项目的研究目的是通过大数据客观找出孤独者名单，帮助校方尽可能大范围地为学生提供心理及就业帮扶，供学院领导决策并做出积极干预。
　　4 结论
　　大数据给高校的学生管理工作带来了机遇和挑战，完成对学生管理数据的采集和分析体系的建设，才能科学地划分学生群体。[5]本文通过数据获取、数据处理、数据分析到数据验证等一系列环节，充分利用一卡通消费时间数据与门禁刷卡时间数据，充分挖掘数据中的时间关系，找出朋友关系，再结合决策树算法，得出了就业失败的预测模型，为大数据时代的高校管理工作者提供了一个预警的解决思路。
　　参考文献：
　　[1] 中华人民共和国教育部.教育部办公厅关于印发《普通高等学校学生心理健康教育工作基本建设标准（试行）》的通知 [A/OL].（2011-02-23）.http：//www.moe.gov.cn/srcsite/A12/moe_1407/s3020/201102/t20110223_115721.html.
　　[2] 郭晋武，佘双好.大学生身心健康状况调查的初步报告 [J].青年研究，1992（6）：19-24.
　　[3] 郑延芳，周庆云.大学生身心健康状况及其影响因素研究 [J].现代预防医学，2008，35（24）：4825-4827.
　　[4] 温展明，张珂.大数据分析理念在高校学生工作中的应用 [J].开封教育学院学报，2018，38（2）：138-139.
　　[5] 单耀军.大数据背景下高校学生管理信息化研究 [J].教育与职业，2014（23）：27-29.
　　作者简介：余琳（1988-），女，汉族，湖北武汉人，中级工程师，工学硕士，研究方向：大数据分析、数据治理、情报分析。

其他文献

智能监控摄像头的研究

摘要：文章对于一种基于Linux系统和树莓派开发的智能监控摄像头进行了研究。面对人员情况复杂，布置环境多种多样的应用条件，这种摄像头具有无线化、小型化、智能化的特点，减少了对布置环境的要求以及对相关人员的需求;结合视觉信息处理、云台舵机控制，可以自动进行人脸识别、人脸验证、识别颜色等;并且在识别特征的基础上持续跟拍目标，适合紧急布置，识别特定目标并跟拍的任务。　　关键词：监控;人脸识别;特征检测

期刊

虚拟仿真实训教学的探索

摘要：为解决“中医骨伤科学”实训课难以为学生提供真实病例反复训练的现状，提出基于虚拟仿真技术的虚拟仿真教学法，将122名中医专业学生随机分成虚拟仿真教学组及传统教学组，前者接受虚拟仿真教学，后者接受传统实训课教学。授课完毕后对两组学生完进行考核。结果显示：虚拟仿真教学组学生操作考核平均分及学生满意度均明显优于传统教学组。研究表明，虚拟仿真教学法是一种行之有效的教学方法创新，可为其他学科实训课教学

期刊

区域经济运行机制模型建立

摘要：智慧城市指综合利用各类信息技术，通过对城市人与物的感知和互通，大幅优化并提升城市运行效率的过程。文章针对广州市南沙区的区域经济运行展开结构化、动态化、指数化的定量研究，建立区域经济运行指标体系模型，并借助该模型提升南沙区政府决策的“智慧度”。首先运用计量经济学的相关方法构建区域经济运行指标，然后通过德尔菲法对指标进行权重赋值，并应用AHP层次分析法确定最终的指标权重，最后通过基准对比分析每

期刊

计算机类公共课程的“FOS导学模式”构建

摘要：课程导学是导学教师为学生提供的学习支持服务手段之一，即由导学教师配合授课教师在课程教学前后为学生提供的学习支持服务，既可以对学习内容进行辅导，也可以对学习方法进行指导。针对成人高校计算机公共基础课程教学现状，以西安广播电视大学为例，围绕“计算机应用基础”课程，分析计算机基础课程体系构建的基础和目标，在对不同专业需求和学习要求进行调研的基础上，从专业角度出发，对计算机类公共或基础课程构建“F

期刊

基于ZigBee无线传感网络监控疫情预警系统设计

摘要：新冠肺炎引起的急性呼吸道传染病，存在“人传人”的现象。体温异常为判断疑似和确诊新冠肺炎的重要指标之一，人工测体温不仅耗时、费力，最主要的是增加传染概率。基于ZigBee无线传感网络对新冠肺炎疫情预警系统进行设计，节省人力，对新冠肺炎的预防能在第一时间获得数据，防止校园大规模爆发，并且能够降低新冠肺炎在人工测量时带来的风险，有效控制新冠肺炎。　　关键词：ZigBee;无线传感网络;新冠肺炎;

期刊

信息化背景下课程教学改革的研究

摘要：为了提升学生的实践动手能力，现在越来越多的高职教师都选择采用项目化教学，随着项目化教学的不断深入，项目化教学实施的问题也逐渐显现出来，基于此，以高职高专汽车检测与维修专业学生学习“汽车电器构造与检修”课程为教改对象提出了信息化教学改革的新思路，通过教学改革表明，采用信息化教学模式，可以有效地提升学生的学习兴趣，拓展学生的学习时间和学习空间，既提升学生的创新能力，使学生的综合职业素养也得到了

期刊

信息化教学网络名师工作室建设的思考

摘要：近年来，立足于不同学科或研究点的名师工作室建设在全国多地展开，对于教育教学团队的建设起到了积极作用。信息化教学是当前教育界普遍关注的现代教学手段之一，并得到了众多教师的实践与运用。将信息化教学与名师工作室相结合并借助于网络平台是大面积提升教师信息化水平的有效途径。“泛PPT”则是以当前教师群体使用的主流信息手段PPT为基础，添加若干插件而深化其内涵、丰富其功能。信息化教学教研的聚焦点在于基

期刊

Hadoop+GPU大数据平台架构可行性分析

摘要：在信息化高速发展的时代，上海市中职计算机类课程开设与时俱进，各中职校计算机类教学资源日新月异，但由于缺乏统一资源库，每个学校的教学资源包括教学案例、音视频等数据不能共享，只能单独存放在独立数据库里。研究旨在分析Hadoop+GPU的大数据平台架构可行性应用，即集中存储和挖掘上海市中职计算机课程资源。此构架旨在汇总并挖掘中职计算机类课程资源，做到资源共享、教学资源充分利用，可以多层次多维度建

期刊

人工神经网络的现状与发展

摘要：随着雾霾天气的逐渐增多，对空气造成了污染，给人们的生活产生了较大影响，人工神经网络是人们预测雾霾的重要工具。因此，为了更好地反映雾霾在时间及空间的分布状况，为预防工作提供充足的时间准备以雾霾预测研究为例，对人工神经网络的现状、发展与应用进行了简要描述，并结合人工智能、大数据等方面对人工神经网络的未来发展趋势进行了综述。　　关键词：雾霾预测;人工神经网络;水质预测　　中图分类号：TP183

期刊

大数据分析与价差套利

摘要：很多人都知道股市的赚钱比例是很低的，近70%的人在亏损，真正可以赚钱的只有10%。面对金融市场中的巨大风险，人们通过各种技术手段分析金融数据，发掘其中隐含的规律，大数据技术就是一种重要的技术手段。针对如何利用大数据技术分析数据在股市中获得利润的问题，文章将利用R语言对金融数据进行大数据分析，给投资者提出建议。　　关键词：大数据;价差套利;R语言;金融　　中图分类号：TP311.1 文献

期刊

大数据背景下的学生孤独预警模型

与本文相关的学术论文