基于Hadoop的校园卡数据挖掘的研究与实现

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:DZLYSSY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高校内的各种业务系统不断增加,高校内积累的师生数据急剧的增长,已经形成了典型的大数据环境。校园卡作为数字校园的一部分,存储着所有师生的各种校内活动的记录,包括食堂餐饮消费记录、开水消费记录、超市购物记录、图书馆出入记录、电费缴纳记录、图书借阅记录、体育场馆使用记录等。这些记录当中隐藏着大量有价值的信息,但我们很难凭借直观的感觉发现它,必须通过数据挖掘的方法挖掘出来。通过对这些数据的深入挖掘,发现其中的有价值的信息,学校管理者就能对师生的消费规律、学习情况有一个更理性、清晰的认识。这将为高校资源的合理分配,校园的规划建设及师生的管理等工作提供有价值的参考。本文基于校园卡近几年来产生的大量数据,采用主流的Hadoop生态下的大数据处理框架进行校园卡数据的清洗、分析、挖掘等工作。首先,本文分析了挖掘校园卡数据的重要性及其相关技术的研究现状。然后对数据挖掘中使用的Hadoop相关技术(HDFS文件系统,Hive数据仓库,MapReduce分布式计算框架)、FP-Growth算法及决策树算法进行了介绍。最后,采用sqoop、Hive等技术,对校园卡数据建立以校园消费为主题的数据仓库。在此数据仓库之上做了以下三项工作:第一、统计各个时间段中各食堂就餐人数,发现了在校就餐人数的周期性变化,对学校的早中晚就餐高峰时间也有了一个更直观的认识。第二、统计学生的各类消费金额,使用C4.5决策树算法建立学生贫困程度预测模型,通过剪枝等优化手段后评估准确率达到85.4%,对学校的贫困生评定有一定的参考价值。第三、统计学生常去商家,运用FP-Growth算法挖掘出大量频繁模式,得出大量学生与商户之间、商户与商户之间的关联规则,使得学校及商户对学生的消费习惯有更清晰的认识。目前大多数高校的信息化平台还只关注在建立事务管理系统,对数据挖掘的运用还不多见。相信随着大数据、机器学习等技术的不断发展,校园数据的分析挖掘在辅助学校管理中将会扮演越来越重要的角色。
其他文献
针对目前语法教学的弊端,对一节语法公开课进行反思,以教学实例中的导入、讲与练的环节为切入点,从总体上对语法复习作了全面的探究,为学生创造在活动场景中运用语言的机会,
目的探讨植入式中心静脉输液港(简称输液港)应用中常见的问题,并提出相应的对策。方法对应用输液港300例肿瘤患者的护理情况进行分析和总结。结果 300例患者在使用输液港过程
<正> 宪法修改草案规定,我国农村基层政权设立乡人民代表大会和乡人民政府,把政社分开,保留人民公社的经济职能,使农村人民公社作为集体经济组织,从而改变了现行的政社合一的
推动社会资本办医有利于提高医疗卫生服务效率、满足新形势下人民群众多样化多层次的医疗服务需求。政府在推动社会办医上扮演着重要角色。本文通过对社会办医现存的问题与发
目的研究特发性血小板减少性紫癜(ITP)患儿经治疗血小板数量正常后的血小板功能、巨核细胞数量及T淋巴细胞亚群的变化。方法通过玻璃柱法测定血小板粘附功能;用自发性血小板聚集试验
20世纪80年代以来,在全球范围内出现一些以普通消费者为目标顾客的平价时尚服装零售品牌,这些品牌被称为快时尚服装品牌。快时尚服装品牌在国际上迅速发展,取得了可观的销售
教育界紧随时代深化改革的潮流,为了提高国家人才质量正在进行新课程改革,在《中国学生发展核心素养》中明确提出了九大教育核心素养。这就要求我们各位教师在传授基本知识的
<正>特发性血小板减少性紫癜(ITP)是儿童时期最常见的出血性疾病之一,国内统计ITP占儿童出血性疾病的25.1%,以皮肤黏膜自发性出血、血小板减少、出血时间延长和血块收缩不良
<正> 目前,在建筑材料中使用的石棉纤维对健康的危害性已引起相当的关注。在制造墙板和隔热板时,石棉纤维正逐渐被其它材料(其中许多是纤维质的)所代替。若干年前就已明确,玻