基于Spark的大学生校园信用大数据评价系统构建研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户：sjk29001431

【摘要】

：

【作者】

：

王启源谷瑞军王聪林聪李林鹏李伟

【出处】

：

电脑知识与技术

【发表日期】

：

2019年30期

【关键词】

：

Spark框架信用评价 Docker容器大数据系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：校园内共享单车被破坏和挥霍助学金的情况屡见不鲜，既不利于大学生自身的健康成长，也给社会造成了负面影响。基于大数据技术构建大学生信用档案具有十分重要的意义。另外，随着高校中一卡通的广泛使用以及各业务系统的数据整合，形成了包括消费数据、宿舍进出数据、图书借阅数据、考试成绩的大数据环境，也为开发设计大数据信用评价系统创造了条件。通过整合大学生生活中的各方面的数据，基于HDFS和大数据计算框架spark，采用B/S架构，构建了信用评价系统。通过在真实环境下仿真测试，验证了评价模型的有效性，为有关部门提供了决策参考。
　　关键词：Spark框架;信用评价;Docker容器;大数据系统
　　中图分类号：TP391 文献标识码：A
　　文章编号：1009-3044（2019）30-0066-03
　　随着互联网的快速发展和电子支付的兴起，诚信已逐渐成为社会关注的焦点。发达国家自20世纪80年代就兴起了信用管理的研究，其中的绝大多数都已经建立起了比较完善的社会信用管理体系，出现了提供征信数据库服务的专业公司。国内的很多高校在很多年前也开展了相关的研究工作，利用信息化技术开发了相应的大学生信用管理系统和信用评价系统。
　　本项目主要研究基于校园一卡通的学生信用管理系统的设计与实现，系统包括信用数据采集与管理、学生信用综合评价等模块。在实现过程中以校园网为支撑，以校园一卡通数据库为核心，通过整合教务处、学工处、财务处、后勤处、图书馆5个系统中与信用有关的数据，设计评价模型和开发评价系统，将计算出的信用向量值存储在学生信用数据库中。系统中的信用评价模块调用学生信用数据库中的数据完成对学生信用的综合评价，从而得到学生最终的信用向量值，给出学生的信用等级。
　　1相关工作
　　1.1相关研究
　　在高校学生信用方面，国内很多高校在多年前就已经进行了一系列研究，也开发了相应的大学生信用评价系统。例如，通过智能校园应用程序与学生一卡通系统进行绑定，对学生的消费情况进行了探讨，并提出无人超市、无人监考考场、加强监控系统和对学生进行诚信教育的设想。他们还提出建立以大数据为核心，以智能感知为联系点，以智能应用为基础，构建智能校园信息平台。另外，还存在此种方式：基于大数据，根据学生身份证号码创建唯一编号进行信息采集。将这些庞大的数据导入到分布式数据库的同时进行分布式计算。建立统一的评定细则，最后录入信用平台。最后，要建立一个更具可操作性、更能反映大学生诚信状况的大学生诚信评价体系，从而建立一个面向政府和社会的诚信信息查询系统。又如松江大学城学生信用管理系统，通过JAVA语言和MySQL数据库实现了系统，其功能包括对信用进行增删改查，达成了系统的基本需求。但该系统较为简单，仍存在着一些不足的地方，比如系统无法定时收集数据并自动分析，难以做到实时生成高校生的信用情况。
　　1.2相关技术
　　大数据集是无法在规定时间内使用传统软件工具捕获、管理和处理的数据集，是需要新的处理模式才能获得价值的信息工具。大数据需要更高的决策能力、发现能力和过程优化能力。大型数据具有四个主要特征：数据量大、速度快、数据类型多样和低价值密度。大规模信息技术的战略重要性不在于知道、保有超大规模的数据量，而在于对这些相关数据进行专门处理。如果把大数据比作一个行业，该行业的获利方式就在于提高数据的处理能力。通过一系列专业化的处理最终发掘出有价值的信息。如果利用技术的角度来看，大数据和云计算是紧密联系、相互协作的。大数据必须采用分布式的方法来处理海量数据，他能够时时收集信息，但數据的计算处理则依靠云计算等。
　　Apache Spark是一个开源类Hadoop MapReduce的计算框架，特用于处理海量规模数据集，计算能力强且速度快。Spark具有MapReduce的优点，但与MapReduce的相异点在于，Spark的中间输出结果可以存储在存储器中，因此不需要重复读写HDFS，因此sDark在机器学习和数据挖掘方面的表现能力更加突出。Spark采用分布式数据集，除了可以优化迭代工作量外，它还可以提供交互式请求。通过在HDFS上保存收集到的数据，之后放入Spark中，进行数据分析。
　　Spark结构在分布式计算中使用Master-Slave模型。Master作为管理节点，为集群中那些包含Master进程的节点，负责任务调度，并保证工作的正常执行。如果节点中包含Worker进程，则为Slave节点。Slave节点对得到的任务进行计算，并实时向管理节点反馈自身工作状态。Driver和Worker是Spark应用程序执行时极其重要、不可或缺的角色。Driver不断将Task分配下去后，会创建Executor来执行任务。在执行时，Task及其所需要的依赖文件和序列化后的jar被发送给Worker进程，同时Executor处理相应数据分区的任务。
　　2平台架构和设计
　　2.1平台架构
　　基于Java EE技术，以抽象工厂设计模式和MVC设计模式为指导思想，采用SSM框架进行设计。基于HDFS和大数据计算框架spark对业务数据进行分析。客户机配置要求低，PC机或瘦客户机均可。因为采用的是B/S架构，在任何网络连通的条件下，都可通过客户机以浏览器的形式进行信用系统的访问。方便用户随时随地进行信用查询，了解自己的信用情况。其架构如图2所示。
　　2.2主要模块
　　基于Spark的大学生校园信用大数据评价系统主要包括数据采集模块、数据分析模块以及信用展示与可视化模块。
　　1）数据采集：将保存在数据库中的数据运用sqoop上传到docker容器中的HDFS集群上。
　　2）数据分析：容器中自动调用spark对采集到的数据进行分析。
　　3）信用展示与可视化：分析完的数据会被再度保存到数据库中，并在前端页面展示并生成折线图、柱状图、饼图等可视化信息。　　下面介绍spark分析与可视化流程的设计，如图3所示。
　　用户登录web应用后，对用户的角色信息进行验证，之后进人对应的功能界面。管理员用户可以查看详细数据，并且可以进行数据采集与分析。后台自动进行，等待运行完毕后可以查看最终评分结果，包括各个单项的分数与最后的总评。
　　3系统部署与运行
　　下面以一个学院、20个班的规模为例，选取相应的软硬件资源来搭建环境，并作了测试和最终评价。
　　3.1平台部署
　　3.1.1基础环境
　　首先选择两台19英寸2U机架服务器，一台为应用服务器，一台为支撑服务器。应用服务器配置为：12核心CPU、64G内存、2块2T硬盘;支撑服务器配置为：24核CPU、256G内存、4块4T硬盘，两台服务器间通过万兆网卡互联。然后分别安装cen-tos7系统。
　　3.1.2安装D0cker环境
　　1）安装Docker
　　sudo yum install docker
　　21开启Docker，并设置开机自启
　　sudo systemctl start docker
　　sudo systemctl enable docker
　　3）测试安装是否成功，如果打印出的Hello等字样时，表示Docker已正确安装。
　　docker rtln hello-world
　　3.1.3容器内应用部署
　　为保证数据采集与分析的自动运行，须在容器内安装Ha-doop，Sqoop以及Spark，并编写相应的脚本文件确保能够自动调用并执行。
　　3.1.4应用部署
　　分别安装mysq15.7数据库、JDK8、和tomcat7服务器，将ja_vaweb应用打成War包后部署到服务器上，并启动服务器，测试能否正常访问。
　　3.2平台测试
　　图4为平台管理员端主界面。
　　进人数据查看项，可查看学生具体数据，可对其进行修改，如图5所示。
　　进人信用查看菜单下，点击信用汇总中的采集分析，可自动对本地数据库中的数据进行采集，并利用Spark进行分析，一键汇总会将得到的分数保存到本地，如图6所示。
　　信用可视化菜单下可以根据需求生成饼图、柱状图或折线图查看学生的信用分布情况，如图7。
　　学生用戶进入系统界面，可查看自己的总信用评价，以及入学以来各个时期的折线图，如图8所示。
　　4结束语
　　在当今社会，信用信息对个人的生活、工作都有着重大影响，需要加强对学生的信用管理，建立完备的信用监督体系，从而提高学生的诚信意识。通过在Linux系统上安装Docker软件，并在容器内部署Hadoop、Spark，可以快速、省时地将传统关系型数据库数据上传其中并快速分析，最终将结果保存至本地以供查询。另外，采用Javaweb技术使最终结果呈现在浏览器页面上，方便了高校学生随时随地查阅自己的信用情况。

其他文献

北京市园林景点门票价格管理思路

园林是一个城市精神文明建设的重要组成部分，是反映人民生活水平的重要标志，尤其是我市远郊区县旅游业的发展已成为当地经济新的增长点之一，随着市场经济的不断深入，如何通过价格

期刊

门票价格园林景点价格管理模式北京市旅游景点公园旅游业市物价局可行性分析文物景点

拥抱体育　热衷健身

越来越多的都市人由于生活条件好，摄入了大量的高脂肪、高胆固醇等物质，心血管、脑血管等方面的“富贵病”愈来愈多。于是人们按照广告上的说法寻药吃，结果药越吃越多，补品越吃越

期刊

体育消费体育习惯健身房健身器材全民健身运动脑血管不良习惯进入家庭高胆固醇高脂肪

虎年春/夏女休闲服流行趋势

行内人语：如果说服装是时代特征的晴雨表的话，那么，服装的流行则是反映人们的生活态度、心情、对时代的把握的温度计。最近，法国的专门针对女休闲服装的流行趋势预测的权威（BlocNo

期刊

休闲服女性形象流行趋势预测针织物棉针织面料毛圈织物棉织物民族特色时代特征运动上衣

浅谈灵山县无公害蔬菜生产病虫害防治技术

灵山县位于广西南部，辖区18个镇，389个村委会，素有种植秋冬蔬菜的习惯，每年蔬菜种植面积2．2万hm^2，总产量40万t，其中新圩镇独树村委会，自获得自治区农业厅无公害蔬菜基地认证后，严格按

期刊

无公害蔬菜生产病虫害防治技术灵山县无公害蔬菜基地种植面积生态防治方法抗病虫能力广西南部

海外新的服务行业

悄然兴起的电脑酒吧今日海外，电脑酒吧作为一种新的服务行业悄然兴起c它一问世，就以其别具一格的经营方式使电脑爱好者和休闲的人们流连忘返。走进这种新型酒吧，只见每一张餐桌

期刊

方便商店电脑互联网络科威特经营方式服务行业咖啡控制系统终端屏销售和分配

甜玉米玉米螟的发生和无公害防治技术

在桂林随着人们生活水平的不断提高和农业种植结构的调整，甜玉米作为果蔬类新兴食品种植面积不断扩大，大田生产上玉米螟的危害日趋严重。玉米螟主要以幼虫蛀食玉米心叶、茎杆和

期刊

无公害防治技术玉米螟甜玉米农业种植结构危害习性大田生产生活水平种植面积

浅谈桂林葡萄主要病害综合防治技术

桂林葡萄总面积约6000hm^2，年产9万多t，产值2．8亿元，是桂北部分农户主要的经济来源。由于葡萄园大部分是由水田改种的，且已有多年种植历史，受气候等多种因素的影响，近年来病害发生日

期刊

综合防治技术葡萄病害葡萄园桂林产量和品质种植历史预防为主黑痘病霜霉病灰霉病

抓机遇，优布局，建设桂北柑桔优势带

桂北地区属亚热带季风气候区,热量充足,雨量充沛.区域土地资源十分丰富,宜果的荒山荒地尚有20多万hm2,且土层深厚,有机质含量丰富,是我国柑桔生产的最适宜区或适宜区.国家农

期刊

桂北地区柑桔业气候条件区域优势土地资源

浅析石景山区社会力量办学的趋向及管理

作为国有办学力量的补充，社会力量办学已成为我国教育事业的组成部分，发挥了很大作用。随着改革开放不断深入，国家对社会力量办学实行宏观管理，办学内容和收费标准由办学点自定，极

期刊

社会力量办学石景山区收费许可证办学内容收费标准艺术班成人教育管理计算机应用软件办学条例教学内容

开拓电动自行车市场大有可为

据有关部门抽样调查表明，上海市每百户市民有107辆自行车，6．4辆助力车，原来骑自行车的有20％愿意更换价值在3000元上下的电动自行车。上海目前自行车社会拥有量为400万辆，以此推算电

期刊

电动自行车燃油助力车大城市拥有量抽样调查销售市场市场销售调查统计潜在市场销售量

基于Spark的大学生校园信用大数据评价系统构建研究

与本文相关的学术论文