论文部分内容阅读
摘 要: 针对学生成绩影响的问题,对学生成绩和其所在的环境进行分析,找出学生成绩影响的因素,首先运用爬虫原理对所需数据的爬取工作,在爬取的过程中删掉噪声数据,保存有效数据,安装Hadoop,Linux环境,进行联机操作,对数据进行分析,最后制图进行可视化工作。
关键词: 数据收集;数据清洗;数据挖掘;数据可视化;
【中图分类号】 G632 【文献标识码】 A【文章编号】 2236-1879(2018)14-0046-01
第一章 概述
1.1研究背景:
当今的学生成绩在科技的发展下影响其成绩的方式已经变得多种多样,很多学生不知道自己被什么影响了学习成绩,平时感觉学的很好,可考试时成绩却不称心如意。而我们要做的就是分析出有哪些因素影响了学,为学生的成绩的提高提供参考。
1.2 项目意义:
认识大数据,处理大数据,挖掘大数据的应用价值,从实践中学习大数据技术是本项目学习和实践大数据技术的重要意义。
第二章 大数据技术相关介绍
2.1数据收集。
利用网络爬虫从各个教育网爬取所需数据:对于爬取回来的网页内容,可以通过re、beautifulsoup4等函数库来处理,其中最重要且最主流的两个函数库:requests 和beautifulsoup4,它们都是第三方库。requests 库是一个简洁且简单的处理HTTP请求的第三方库,建立在Python 语言的urllib3 库基础上。get()是获取网页最常用的方式。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。
2.2数据清洗。
数据的格式无法满足我们的要求,或者是数据出现缺省值等,以至于达不到对数据处理的基本要求,需要对该数据进行预处理。数据集成通过实体识别、冗余和相关性分析来实现。
2.3数据挖掘。
从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息。一般方法有决策树方法、聚类方法、数学建模法等。根据数据的大小、形式等用不同的方法挖掘潜在的有价值的信息。
2.4数据可视化。
借助于图形化手段,绘制折线、柱形、扇形、雷达图等,清晰有效地传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。数据可视化技术包括:数据空间、数据开发等。
2.5环境搭建。
在虚拟机上装好 Ubuntu 系统,在Ubuntu上安装必要的python,java,Hadoop环境,java可以选用系统自带的Java环境配置,python我们选用的是python3.6。
第三章 分析方法总结及结果展示
3.1 学生成绩分类标号。
对爬虫方式收集的数据。将获得的数据进行标号,对是否是班干部的同学进行标注,是班干部为1,不是为0,家境,教育资源等因素都标号,任何一个因素都标号为1或0。
3.2对学生成绩进行分类。
为了实现分析我们将学生成绩逐级从低到高分为5类,首先我们分析学习在优良以上的学生情况,从侧面反映出学习差的原因
从中我们选取百分制分数60-100段来分析我们对学生家境进行了0和1标号,对家庭富裕的学生进行标号
家庭有车有房为家境较好的
一线城市为教育资源较好的
0代表家境很好的学习成绩差的,1代表学习成绩好的家境也好的,运用python进行可视化操作进行绘图。
如上图所示家庭条件好的,学习成绩好的占优势。
在对家庭条件不好的学生进行标号,0代表学习差的,1代表学习好的,同样运用python进行可视化操作的如图所示:
同样可以看出学习好学生的比例反而比家境好学习好的占的比例更高了。
从图中可以看出家境好的学习好的人数明显比家境不好的学习人数多了很多。对这个问题我们进行了分析发现家境不好,学习不好的学生早早出去打工了。
我们还对学生是否当班干部进行了分析发现学生学习好的占了很大一部分比例,经过分析发现大部分学生都是学习好了之后才当上班干部的。从而来促进学生的学习。我们又对不同的地区城市的成绩进行了分析,發现城市越发达学生成绩好的比例越高。最后发现在外在原因越有利的情况下学习好的比例越高,这个结果也很符合道理。
第四章 总结概括
4.1项目总结。
系统的分析方法可以有效地挖掘出学生成绩背后所蕴含的价值,提供衡量校园教学质量信息,让学生更好的掌握专业技能,帮助学生提高学习效率,提升学习质量,为社会提供更多的价值。
4.2结束语。
本文论述了大数据技术对学生学习成绩的分析,大数据技术仅是分析学生学习成绩的一种手段,通过数据采集、数据处理、数据清洗、数据挖掘、数据可视化对学生学习成绩进行分析,在分析数据的同时挖掘出隐藏在数据背后的价值,以便学校更好地制定教学计划。
参考文献
[1] 罗福强 李瑶 陈虹君.大数据技术基础——基于Hadoop与Spark[M].人民邮电出版社.2017-05
[2] 肖睿 雷刚跃.Hadoop & Spark 大数据开发实践[M].中国水利水电出版社.2017-07-01
[3] Tom Wbite.Hadoop 权威指南[M].华东师范大学数据科学与工程学.2017-07-01
[4] 刘增杰.MySQL 5.7从入门到精通(视频教学版).清华大学出版社.2016-08-01
[5] 明日科技.Java精彩编程200例 全彩版.吉林大学出版社.2017-09-01
[6] 张良均,王路,谭立云,苏剑林.Python数据分析与挖掘实战.机械工业出版社.2015-11-01
[7] 明日科技.零基础学Android.吉林大学出版社.2017-09-01
关键词: 数据收集;数据清洗;数据挖掘;数据可视化;
【中图分类号】 G632 【文献标识码】 A【文章编号】 2236-1879(2018)14-0046-01
第一章 概述
1.1研究背景:
当今的学生成绩在科技的发展下影响其成绩的方式已经变得多种多样,很多学生不知道自己被什么影响了学习成绩,平时感觉学的很好,可考试时成绩却不称心如意。而我们要做的就是分析出有哪些因素影响了学,为学生的成绩的提高提供参考。
1.2 项目意义:
认识大数据,处理大数据,挖掘大数据的应用价值,从实践中学习大数据技术是本项目学习和实践大数据技术的重要意义。
第二章 大数据技术相关介绍
2.1数据收集。
利用网络爬虫从各个教育网爬取所需数据:对于爬取回来的网页内容,可以通过re、beautifulsoup4等函数库来处理,其中最重要且最主流的两个函数库:requests 和beautifulsoup4,它们都是第三方库。requests 库是一个简洁且简单的处理HTTP请求的第三方库,建立在Python 语言的urllib3 库基础上。get()是获取网页最常用的方式。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。
2.2数据清洗。
数据的格式无法满足我们的要求,或者是数据出现缺省值等,以至于达不到对数据处理的基本要求,需要对该数据进行预处理。数据集成通过实体识别、冗余和相关性分析来实现。
2.3数据挖掘。
从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息。一般方法有决策树方法、聚类方法、数学建模法等。根据数据的大小、形式等用不同的方法挖掘潜在的有价值的信息。
2.4数据可视化。
借助于图形化手段,绘制折线、柱形、扇形、雷达图等,清晰有效地传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。数据可视化技术包括:数据空间、数据开发等。
2.5环境搭建。
在虚拟机上装好 Ubuntu 系统,在Ubuntu上安装必要的python,java,Hadoop环境,java可以选用系统自带的Java环境配置,python我们选用的是python3.6。
第三章 分析方法总结及结果展示
3.1 学生成绩分类标号。
对爬虫方式收集的数据。将获得的数据进行标号,对是否是班干部的同学进行标注,是班干部为1,不是为0,家境,教育资源等因素都标号,任何一个因素都标号为1或0。
3.2对学生成绩进行分类。
为了实现分析我们将学生成绩逐级从低到高分为5类,首先我们分析学习在优良以上的学生情况,从侧面反映出学习差的原因
从中我们选取百分制分数60-100段来分析我们对学生家境进行了0和1标号,对家庭富裕的学生进行标号
家庭有车有房为家境较好的
一线城市为教育资源较好的
0代表家境很好的学习成绩差的,1代表学习成绩好的家境也好的,运用python进行可视化操作进行绘图。
如上图所示家庭条件好的,学习成绩好的占优势。
在对家庭条件不好的学生进行标号,0代表学习差的,1代表学习好的,同样运用python进行可视化操作的如图所示:
同样可以看出学习好学生的比例反而比家境好学习好的占的比例更高了。
从图中可以看出家境好的学习好的人数明显比家境不好的学习人数多了很多。对这个问题我们进行了分析发现家境不好,学习不好的学生早早出去打工了。
我们还对学生是否当班干部进行了分析发现学生学习好的占了很大一部分比例,经过分析发现大部分学生都是学习好了之后才当上班干部的。从而来促进学生的学习。我们又对不同的地区城市的成绩进行了分析,發现城市越发达学生成绩好的比例越高。最后发现在外在原因越有利的情况下学习好的比例越高,这个结果也很符合道理。
第四章 总结概括
4.1项目总结。
系统的分析方法可以有效地挖掘出学生成绩背后所蕴含的价值,提供衡量校园教学质量信息,让学生更好的掌握专业技能,帮助学生提高学习效率,提升学习质量,为社会提供更多的价值。
4.2结束语。
本文论述了大数据技术对学生学习成绩的分析,大数据技术仅是分析学生学习成绩的一种手段,通过数据采集、数据处理、数据清洗、数据挖掘、数据可视化对学生学习成绩进行分析,在分析数据的同时挖掘出隐藏在数据背后的价值,以便学校更好地制定教学计划。
参考文献
[1] 罗福强 李瑶 陈虹君.大数据技术基础——基于Hadoop与Spark[M].人民邮电出版社.2017-05
[2] 肖睿 雷刚跃.Hadoop & Spark 大数据开发实践[M].中国水利水电出版社.2017-07-01
[3] Tom Wbite.Hadoop 权威指南[M].华东师范大学数据科学与工程学.2017-07-01
[4] 刘增杰.MySQL 5.7从入门到精通(视频教学版).清华大学出版社.2016-08-01
[5] 明日科技.Java精彩编程200例 全彩版.吉林大学出版社.2017-09-01
[6] 张良均,王路,谭立云,苏剑林.Python数据分析与挖掘实战.机械工业出版社.2015-11-01
[7] 明日科技.零基础学Android.吉林大学出版社.2017-09-01