一卡通数据挖掘浅析与应用

来源 :科技信息·中旬刊 | 被引量 : 0次 | 上传用户:lpc123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:基于校园一卡通系统建立数据仓库,通过对数据集分析确定应用系统中的主题,并对其进行维度设定,一次创建维度表和事实表,最后设计出用于数据挖掘的多维数据系统架构,探索数据挖掘在一卡通多维数据库系统中的应用。
  关键词:一卡通数据挖掘;数据仓库;多维数据模型
  1.引言
  “校园一卡通”系统[1](以下简称一卡通系统)是我校校园信息化建设的一项基础工程。目前,我院已实现利用一卡通系统对学校中的各类身份认证、消费进行统一管理。作为一套服务全院师生的管理系统,在系统设计及建设时,侧重于它的业务功能实现方面,没有过多考虑对其数据进行分析。一卡通系统是一套数据库应用系统,存放着大量和学生行为有关的数据。如果能对这些数据进行系统的分析挖掘,发现其中存在的规律及问题,对将来我院的管理工作具有重要的指导意义。
  一卡通系统设备广泛分布在校园内的食堂、超市、水房、公寓、图书馆、校医院等地点。因此,产生的数据可以从侧面反应出个人的行为特点、生活轨迹、兴趣爱好、群体的活动规律等潜在信息。本文中,我们利用潍坊学院一卡通系统产生的数据,结合数据仓库、数据挖掘等相关技术进行初步分析,从应用层面讨论数据分析在校园的研究与实现。
  2.校园一卡通系统与数据仓库[2]
  2.1校园一卡通数据当前存在的问题
  目前,我校一卡通系统虽有多种信息查询功能,但仅仅是对数据及报表进行查询,无法完成对整个一卡通系统的数据分析,并根据实际情况给决策者提供良好的决策支持[3],主要存在以下几个方面问题:[4]
  数据量大:目前一卡通系统产生的信息主要有基本信息、消费信息、图书借阅信息、机房上机记录、身份认证类刷卡信息、开水淋浴用水信息等。加之在校生众多,且每学年都在增加,迄今为止,数据库文件已超过30G。对如此大数据量进行数据操作,在数据清洗、数据分析上都存在一定的难度。
  数据零散、标准不统一:学院整个一卡通系统是由多个应用子系统组成,在系统设计及建设时期没有过多的考虑数据操作问题,同时也没有对数据格式的标准性、数据的联通交互方式做出约定。在一卡通系统运行阶段,与第三方应用系统进行单向对接,因为没有数据仓库,各个应用系统独立运行。这对数据分析及决策支持带来一定的困难,同时也为对数据的整合与加工处理增加了难度。
  数据的整合与转换:一卡通系统数据分析需要对整个系统的数据进行分析,因此需要建立数据仓库对所有的业务系统进行数据的整合与转换,使之符合数据分析系统的结构与要求,以便进行数据分析。
  2.2 校园一卡通数据仓库的设计目标
  基于校园一卡通数据的数据仓库设计目标就是设计数据模型、有效的清洗整合资源、根据管理者和用户的需要构建数据分析平台。在设计的数据模型中,完成历史数据和实时数据的自动抽取、清洗、转换,实现基于维度的信息展示和分析,彌补我校在数据挖掘方面的不足,同时为更深层次的数据挖掘提供数据平台。
  2.3 一卡通数据仓库多维数据模型[5]的构建
  数据仓库是一个面向主题的、集成的、不可更新的、且随着时间而变化的数据集合。它能将我校分散的、异构的原始业务系统操作数据及外部数据源进行抽取、清洗、转化为集中统一、可分析性的信息。通过从不同的维度进行数据的抽取、汇总和分析,将数据重新组织成面向全局的多维数据模型,结合数据挖掘技术,能够灵活的面向用户和管理者的需求,并提供决策支持。
  自我校一卡通系统建立至今,一卡通应用系统已存在海量数据,为有效利用其中的信息资源,需构建基于多维数据库的数据仓库系统。针对不同类别(譬如卡户行为类、消费类)的数据建立多维数据集,每个多维数据集数据模型均包括一个事实数据表以及一个或多个维度表。多维数据模型是最常用的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式。在星型模式中,核心是事实表,每个维度直接联接到事实表上。雪花模式是星型模式的扩展,其中某些维表被规范化,进一步分解到附加表(维表)中。
  事实星座模式又称为星系模式,因为数据仓库由多个主题构成,复杂的应用一般用到多个事实共享表,而维表是公共的,可以共享,这种模式可以看做星型模式的汇集。校园一卡通系统中,消费信息、医疗信息、考勤信息、图书借阅信息等分别作为星型模式的事实表,他们分别是单独的主题域。经过对比与分析,这些主题的维度既有公共的维度,也有子系统特点的维度,如图1所示。如各个主题域都有公共的维度一卡通用户信息、POS机信息、时间维。而每个主题域又有本系统的特点维度:消费主题域有消费类型的维度,医疗主题域有医疗类型的维度,图书借还主题域有图书信息的维度等。因此,多维数据库模型中建立事实星座和公共维度,有利于对一个以上的业务过程进行分析,从而构建学生在校内的生活行为轨迹。
  2.4 一卡通数据分析系统的架构
  数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,成功的数据挖掘的关键之一就是通过访问准确、完整和集成的数据,才能进行深层次的分析,寻求有益的信息。而这些正是数据仓库所能提供的(图2),数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功能―OLAP还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘进行有效的联结,将会给数据挖掘带来各种便利和功能。[7]数据分析系统建设主要分为三个主要部分,如图3所示:
  (1)数据融合处理:校园一卡通系统的数据来源于各个业务系统、
  异构的原始业务系统操作数据及外部数据源,这些数据结构各异,因此数据仓库首先要对这些数据进行有效的整合,建立数据抽取、清理机制,摒弃冗余的、没有价值的信息。经过转换、综合、把有价值的数据装载至数据仓库。
  (2)建立数据仓库:根据设计的数据仓库模型,建立多维数据库模型。通过对子系统数据的抽取、清洗、转换,在数据仓库内部建立各个业务系统的多维数据集,同时根据业务系统完善公共维度的信息。   (3)数据挖掘和展示:通过数据挖掘技术针对不同业务系统设计不同的算法,结合统计查询工具,为前端用户提供多维的数据展示,发现数据中的潜在模式,并以这些模式为基础做出预测。[6]
  3.数据挖掘技术在一卡通系统中的应用
  通过对数据仓库中一卡通消费信息数据集进行聚类分析,如图4所示,聚类数为5,聚类样本为2016年9月至2016年12月的共6077820条记录,算法采用K-Means算法,聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。具体算法如下:
  算法:K -Means
  输入:簇的数目k和包含n个对象的数据库
  输出:k个簇,使平方误差准则最小
  方法:
  1)从N个对象中随机选取K个对象作为簇中心
  2)对剩余的每个对象测量其到每个簇的距离,并把它归到最近的簇的类;
  3)重新计算已经得到的各个类的簇;
  4)迭代2~3步直至新的簇与原簇相等或小于指定阈值,算法结束;
  k-means 算法的工作过程如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然 后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
  通过分析工具对这些数据进行有效的管理和组织,并挖掘其中的信息价值。可为学校的管理工作、贫困生筛查、经营分析等工作提供真实准确的依据,便于做出合理正确的决策。
  (1)现金充值人数高峰期预测。
  在分析过程中,以现金充值业务为方向,综合充值金额及时间,得到每个月的人数峰值,从时间维度下钻,可以得出结论,每周初,现金充值人次基本为当周最多,节假日视假期性质决定最后一天或者多天充值笔数开始回升,节后充值笔数会有一段时期的爆发期,持续3天左右,然后依照周初笔数最多规律进行浮动,如图5所示:
  (2)贫困生筛选
  高校贫困生认定体系结构不完整,有些真正的贫困生有自卑心理,强烈的自尊心导致他们开不了口。[8]而依据各地民政部门开具证明作为认定标准存在诸多弊端。校园卡作为学生在校消费的重要支付手段,在很大程度上较为客观的反映了学生的真实经济状况,如图6所示。因此,立足于数据仓库的贫困生筛选能够很好的为学院贫困生筛选提供事实依据。
  贫困生筛选的目的是通过对消费数据集分析,将消费水平远低于学院大部分同学的群体筛选出来,进行经济补助。为保证筛选数据的准确性,我们首先排除掉消费次数过少的数据,同时考虑到女生食量较小,同时存在晚饭只吃水果的情况,将男女生分别核算。在数据分析上,我们分两个步骤来进行:
  首先采用加权平均值法,将每个同学的早餐、午餐、晚餐分别设定权重。经过问卷调查大部分同学早餐2.5-5元,午餐8.5-11元、晚餐7-9元,设定早餐权重0.2,午餐权重0.45,晚餐权重0.35。将每餐的金额乘以相应的权重求和再平均之后,得到一个加权平均值。
  第二步以月为单位,将每个学生的加权平均值汇总再平均,然后引入聚类算法,设定高中低贫困四档消费水平。处于贫困档的学生,我们认定为经济水平较弱,消费能力过低,存在家庭贫困的可能。为贫困生认定提供事实依据。
  (3)用户关联度及心理健康
  大学生作为一个特殊群体,在日常生活和学习中往往面对着各种心理压力,时间长久会对学业、事业、身心健康造成损害。伴随着学院对学生心理健康的愈加重视,分析用户关联度及学生心理健康迫在眉睫。
  一卡通系统产生的数据具有时空特性,每个记录都包含参与用户、时间、地点,关系密切的用户可能会频繁的在同一个时间段内出现在同一个地点。因此,从用户的轨迹数据出发对数据进行分析,可以发现生活中在相近的时间内出现在相同地点的用户。如果两个用户多次同时访问同一地点,会产生多地点相同、时间间隔较小的行为记录。即产生了多对关联性较高的行为记录,如图7所示:
  在校内,关联度较高的用户大多存在强校内社交关系,一般为室友、同班同学或其它熟络关系。大部分同学和其它同学存在一定的关联度,关联度是小团体朋友圈的展现。如果一个用户和任何人的关联度都很低,从客观数据事实上来说,该用户不与同学一起就餐、上自习、去图书馆、洗澡、回寝室等。从行为上而言,该同学性格孤僻、不合群,甚至于心理不健康,需要进行心理辅导。
  4结束语
  本文介绍了基于潍坊学院一卡通系统数据仓库的设计,以及针对构建的多维数据库系统的数据挖掘方式。选取真实的用户数据,对潍坊学院现金充值高峰期、贫困生筛选、用户关联度及心理健康进行了分析。
  在数据仓库中,根据模型和算法可以按照外部认定条件来做出判定,譬如不常去上课、不常去图书馆的同学挂科率比较高;餐厅每天都会售罄的菜品比较受欢迎,每天都会卖剩的菜品不受学生喜爱。却很难去发现事情发生转向的因素和时间:一个学生因故消沉继而成绩一落千丈,一间图书馆自习室因空调及照明故障导致学生预约率远低于平均值。数据挖掘得到的不仅仅是历史数据的结论,更是对未来一段时间事物发展的预测。下一步工作中,我们将结合学生的成绩,研究影响学生成绩的因素,寻找成绩波动的规律,以期在教学方面提供助力。
  参考文献:
  [1]张敬涛,李向阳,邹秀香.校园一卡通系统的应用研究[ J].山东师范大学学报(自然科学版),2008,23(3):126-129.
  [2]李昭智.决策支持与数据仓库系统[M].北京:电子工业出版社,2001.4:16
  [3]许兆新,周双娥,郝燕玲.决策支持系统相关技术综述展[J].計算机应用研究,2001,(2):35-39
  [4]赖静.基于云南林业职业技术学院一卡通的数据分析系统[D].电子科技大学。2012
  [5]戴浩.基于业务元数据的多维建模系统设计与实现[ J].计算机工程与设计,2010,31[24]:5248-5252.
  [6]王玉芬.张治斌.李长江.数据仓库在高校决策支持中的应用研究[J].陕西理工学院学报,2007,23(4)18-19
  [7]商新娜,孙连英,彭涛.校园一卡通数据仓库系统[J].计算机系统应用,2012,21(3)21-22
  [8]韦崇岗一种卨校资助信息化管理法的实现内江师范学院学报,2011,26(2):65-67
  (Endnotes)
  [1]王玉芬.张治斌.李长江.数据仓库在高校决策支持中的应用研究[J].陕西理工学院学报,2007,23(4)18-19
  [2]韦崇岗一种卨校资助信息化管理法的实现内江师范学院学报,2011,26(2):65-67
其他文献
摘要:城市规划管理是城市建设的依据,是配置城市资源和调控城市布局的重要手段。城市规划管理作为一项基础重点建设项目,其性质和程度不仅代表了一个城市的发展目标和发展方向,而且对于协调城市空间布局、改善人居环境、促进城市可持续发展起到了至关重要的作用。本文着重对城市规划、建设、管理及三者关系进行论述,并提出自己的观点。  关键词:城市规划;建设;管理;关系  城市建设是城市进一步发展的基础,完善的城市基
期刊
摘要:由于我国信息网络时代发展迅速,信息化技术在每个领域中都占领着主导地位,其与科学技术的资源整合更是带来了很大的便捷,面对该技术的强烈操作性以及信号稳定等优点,能够完全满足现代网络时代的不同用户的个性化追求。此外,在现代生活当中,数字电视技术已经成为我国目前传统媒介中最为重要的发展现象,体现了我国电视传媒技术的重要改革。本文以下针对有线电视网络中数字电视技术的应用与发展进行详细分析。  关键词:
期刊
摘要:机械制造技术是机械技术的一个重要组成部分,在中国工业发展和国民经济水平,根据这一技术的研究和发展是逐步完善的,其特性更趋于智能化和自动化,排斥,使其覆盖范围更广,并能在在中国不同的行业和产业的发展越来越重要的作用。因此,在机械制造技术可以发挥重要作用的观点,笔者将在本文中讨论的机械制造自动化技术的特点,并考虑与应用技术的发展在未来,基于我国的实际情况和当前企业发展情况。  关键词:机械制造自
期刊
摘要:本文从智能信息系统的网络通信流量着手,展开对车联网中多媒体视频播放系统的安全性进行研究与讨论,并提出了一种异常检测方法。  关键词:智能信息系统;车联网  近年来,伴随着智能网络技术的普及,无线网络通信已经渗透到各个行业之中,智能家具、智能交通、智慧的地球等新兴的物联网产业在生活中无处不在,时刻影响着人们的生活。如何确保系统的稳定、正常有效的运营是比较重要的问题。  下面主要从终端设备上传、
期刊
摘要:空间变革已经成为当今图书馆所必须面临的课题之一,空间职能优化和转型升级被国内外众多图书馆列入其战略发展计划中。通过分析这些战略规划和图书馆协会白皮书,总结了国内外图书馆空间职能发展现状和优化措施,并由此得出我国图书馆空间职能优化的一点启示。  关键词:图书馆空间职能;优化;战略规划  Abstract:The optimization of space function and transf
期刊
摘要:机械设备的使用能够切实减轻施工人员的压力,提升工程建设效率。但是由于建筑工程现场施工环境复杂,加上缺乏科学的养护意识,导致一些机械设备在长期高负荷运行后,出现了各种各样的故障隐患。如果不能及时进行维护和检修管理,不仅会影响正常施工作业的开展,而且也容易对现场施工人员的健康安全构成威胁。在日趋激烈的竞争环境下,加强对机械设备管理的重视,根据设备类型的不同采用针对性的维护技术,也成为提高建筑单位
期刊
摘要:近几年,我国经济一直处于高速增长状态,城镇化的速度逐步提高,大量的城市基础设施建设带动了建筑行业的快速发展。建筑工程管理在工程施工过程中起着至关重要的作用,探讨如何更好地进行建筑施工管理特别是绿色施工管理具有现实意义。基于此,本文对建筑施工管理及绿色建筑施工管理进行分析。  关键词:建筑施工管理;绿色建筑;施工管理  1绿色建筑施工管理建设的意义与作用  随着我国城市化进程的不断推进与发展,
期刊
摘要:沥青作为路面施工中主要采用的材料之一其在实际中的应用非常广泛,而相较于普通沥青,改性沥青在实际的应用中具有更好的实用性能。根据改性沥青路面的特点来看其在实际中具备了较好的抗滑性及稳定性,而这也进一步的提升了沥青路面在实际应用中的耐久性。为此在改性沥青路面施工中必须要确保其技术应用的科学性及合理性,以此来保证改性沥青路面的质量可以达到规定的标准要求。  关键词:改性沥青;路面;施工技术  目前
期刊
摘要:我国各种大中型水电站随着社会经济的发展也在不断的建设和完善,电气设备作为水电站中重要的组成部分,在水电站运营过程中发挥重要的作用。然而,就目前实际情况来看,水电站电气设备在运行维护方面还存在诸多不足之处,导致水电站运行的稳定性和安全性无法得到充分的保证。有关部门要对此予以重视,针对水电站电气设备的运行维护加大研究力度,为水电站的稳定和安全运行打好牢固的基础。  关键词:水电站;电气设备;运行
期刊
摘要:在建筑工程中预埋件属于其主要的施工项目之一,预埋件在土建施工中的实际质量直接影响了后期各项工序是否可以顺利的进行。因此为了保证土建施工整体的质量可以达到预期的目标,则需要采取适当的质量控制措施来对预埋件施工进行管理。在预埋件施工中其所涉及的工序流程较多,为此在实际中必须要针对这些工序的特点采取相应的来对相关的施工质量控制措施进行选用,保证在土建施工中对预埋件施工技术可以更加良好的应用。  关
期刊