基于ODI的高校异构系统数据集成的研究与实现

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:chuai09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:文章通过高校信息建设的现状分析,研究多业务系统异构数据库在数据集成中的关键问题及技术,给出了通过利用ODI技术结合高校实际情况、实现异构数据库逻辑上或物理上的集成,该集成模式可以有效地打通原本业务系统中的“零散数据”,消除“信息孤岛”现象,实现数据格式标准化、数据访问一致化、数据存储集中化的信息同步和共享,推进高校信息化的建设。
  关键词:数据标准;数据集成;ETL
  1 研究背景及现状分析
  随着高校信息化建设的不断深入,信息技术在各领域的应用也越来越广泛,为了提高工作效率,各职能部门正在采用各种业务系统来满足工作需要。在这个过程中,由于各个应用系统相对独立,产生了大量凌乱、重复、歧义的数据,形成了一个个的“信息孤岛”。随着高校对数据的深层次需求越发强烈,越来越多的应用场景对数据的诉求也越来越高,比如教师课程安排就离不开教师人事信息,学生成绩录入离不开学生信息,这些场景都离不开数据共享,离不开数据集成。这就迫切地需要一套高效、准确、可行性高的数据集成方案来实现高效的信息集成和共享[1]。
  在实际情况中,各个部门由于业务和功能归属不同,在多年的信息化建设过程中,采用了不同的软硬件环境,使用独立的业务系统管理,这就导致了系统之间难以实现信息的互联互通、信息共享和有效利用,给维护和管理造成很大的障碍。主要体现在以下几个方面[2]。
  (1)信息共享意识淡薄,缺乏整体顶层规划和统一标准。
  学校信息化建设的整体规划跟不上教师在教育教学中对信息化的需求,未营造良好的信息环境,未完善推动信息化强有力发展的政策环境,采购决策者对信息系统建设的特点认识不够,信息流向已经从部门内部走向部门之间,但是很多业务系统的建立还是遵循老的业务规则,以部门为边界或者按部门内部分工进行,只建设满足特定需求,建设特定的业务系统,实现各自维护自身系统和数据。同时,由于没有统一的数据标准规范,购置的这些业务管理系统来自不同的软件提供商,各自遵循不同的信息编码规范和数据标准,这就难以实现信息共享、业务联动以及部门之间的协同工作。
  (2)受限于部门利益隔阂,业务联动性差。
  学校在设置职责和部门中体现了更专业化,但也增加了协调的难度,各个部门受不同利益的驱使,各自为政,都优先考虑自己的利益。在信息化建设中,不愿意公開自己部门业务信息,不愿意在业务信息交集点进行统筹优化管理,担心业务信息受到安全威胁,更愿意使用独立的专业管理系统,这样只能达到部门的目标而不是整体的目标,阻碍了内部信息的传递,降低工作效率。
  (3)业务系统分散,数据冗余和源头的不统一。
  经过多年的信息化建设,高校不同业务部门纷纷购置了满足各自业务需求的专业管理系统,各系统之间相互独立,存在了大量的公有信息,由于独立采购独立运维,如果某个系统中的基础数据发生变化,其他业务系统仍然使用原来的数据,如教务、人事、财务系统中对教师数据描述一致吗?为什么我的个人信息在这些系统中不一样呢?我们学校的师生数到底是多少?是以教务数据为准还是人事数据为准?这样就造成了数据重复录入及重复管理,且存在大量不一致,无法在数据统计和上报时提供准确的数据,无法给领导决策提供有效的数据支持,还会造成新的困惑,更难以谈及对全局数据的应用与辅助策略。
  在高校信息化建设中的问题远不止以上提及的几项,但是它们却是如何解决整合、集成校园内众多应用系统数据的关键,包括已有的和即将购置的专业管理系统,使用户能够得到一个统一的应用环境,统一的服务界面,统一的数据资源。
  2 基于ODI技术的数据集成介绍
  数据集成,主要是将基于分散的信息系统的业务数据进行再集中、再统一管理的过程,是一个渐进的过程。
  在实施数据集成的过程中,由于业务系统不同,采用的数据库及结构也不尽相同,它们提供的数据内容、格式和质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,所以首要问题就是如何解决异构数据源的整合,使其形成互联互通的整体,形成有效数据在各部门和各业务系统中流动和共享,同时能进行有效的集成管理。ETL(Extract,Transform,Load)是实现数据集成的主要技术。
  ETL是构建数据仓库的重要一环,将来源端的数据经过抽取、清洗转换,加载到目的端的过程,目的是将分散、凌乱、标准不统一的数据按照预先定义好的数据仓库模型整合到一起,成为联机分析处理、数据挖掘的基础,为学校的决策提供分析依据。
  ETL处理方式如图1所示。在整个数据仓库的构建中,ETL工作占整个工作的50%~70%,主要是为了解决数据异构的问题,负责完成从数据源(各种业务系统)中找到并取出当前主题所需要的那部分数据,输入统一的数据存储中,也就是我们常说的中间库,由于数据仓库中各个主题的数据都是按照前端业务需求存放,因此,需要在抽取的过程中按照预先设计好的数据规则进行清洗或转换,使本来异构的数据格式能统一起来适应新的标准需求,最后,将处理后的数据从统一的数据存储平台按增量或全量的形式加载到目的端的数据仓库中,在数据加载过程中定时进行,并且不同主题的数据加载任务有各自不同的调度时间[3]。
  3 柳州城市职业学院解决方案
  信息系统集成要解决的首要问题是由于各部门业务管理不同产生的信息的异构性问题,集成能否成功的关键不仅取决于基础平台的建设是否完善,更多的是在于信息化组织体系是否完备,管理制度是其迈向规范化的前提,是规避建设风险的保障。下文讨论的是数据集成中几个关键问题,需要各部门通力配合,协调完成[4]。
  3.1 信息标准
  高校信息化建设已经从单一的部门内部数据流通进入跨业务领域数据共享、实现业务联动、建立统一信息系统集成阶段。因此,为了使信息有序流通,保证信息的一致性和权威性,必须制定统一的信息标准。   信息标准为学校业务数据“如何存、存什么、存哪儿”提供了详细的规范,标准是否规范决定了信息的交流与共享等性能。因此,在建立标准之前应首先考虑几点内容:(1)要充分采用目前已有的国家标准和教育部教育管理信息化标准以及其他相关行业的标准,建立适合自身特点的校内信息标准体系。(2)尽量使用学校已发布的数据标准,使学校已有的信息资源得到最大程度的利用。(3)把局部的业务系统应用问题放在整体系统架构中考虑,达到全局优化,符合整体的效果。除此之外,信息标准必须遵循唯一性(一个代码只唯一表示一个编码对象)、实用性(要尽可能地反映分类对象的特点,便于记忆和填写)、可扩展性(为新的编码对象留有足够的备用码)等基本原则。在标准应用中,原则上学校制定的数据标准应首先遵从国家标准、教育部标准和相关行业标准。
  根据学校实际情况,我们在建立信息标准中,大致建立了如下几个规则。
  (1)机构编码:采用4位编码分别表示其中的机构属性、流水号以及内设机构编号。
  (2)教职工编码:采用10位编码,其中包含了入校年份、岗位属性以及流水号。职工号为教职工在学校工作期间唯一标识编号,不随教职工的身份变更而发生变化。
  (3)专业编码:采用4位编码表示系部、专业、学历属性等。
  (4)学号编码:采用9位编码,包含了入学年份、专业编码以及流水号。便于管理及集成的可靠性,学号是学生在学校内的唯一标识编码,学生一经入学取得学号后,直至离校学号保持不变。不会因休学、转专业等学籍异动而发生变化。
  (5)班级编码:采用7位编码,包含入学年份,专业编码前3位(因与学历无关,故只取前3位),流水号。
  学校公共数据标准具有权威性和唯一性,在编制好后,为确保信息化项目和学校整体教育教学信息化的正常运转,应采用统一的数据标准进行数据修改或按照系统集成要求开发数据交换接口。
  3.2 数据清洗
  数据清洗是一个减少错误和不一致性、解决对象识别的过程,是利用相关技术过滤那些不符合要求的数据,将过滤的结果交给业务部门,确认是否过滤掉还是由业务部门修正,以提取出满足数据质量要求的数据。数据的不符合性,主要体现在不完整的、错误的和重复的数据,表现形式在一些应有的信息缺失,比如身份证号,在教务系统中此字段可能不是必须的,但是在学工系统、一卡通消费系统中,它就是必填字段。表1给出几个常用的清洗项及处理方法。
  数据清洗是一个反复的过程,不可能在几天内完成,在集成项目的建设初期、中期、建设完成之后都需要进行。数据清洗还需要特别注意的是不要将有用的数据过滤掉,在ETL开发初期可以定期向业务部门进行修正确认,每个过滤规则都要认真地进行验证。
  3.3 业务流程规范
  数据集成中一个重要问题就是数据冲突问题,主要表现为来源不同的应用系统具有不同的数据源头。因此,首先要规范数据来源的唯一性和权威性,而要确定源头,必须要考虑的是该数据在整个集成项目中的活动生命周期,要从学校行政职能的划分上去明确业务系统拥有的权威数据,如学生信息数据源头应来自教务系统,教职工基本信息则由人事管理系统负责采集,这就确定了该系统作为其他系统的唯一数据源。数据集成平台的数据流向如图2所示。
  凡是要集成到“中间库”中的业务系统数据,我们都需要明确该业务系统的权威数据是哪些,并且该业务系统需要“中间库”提供哪些数据,同时,数据源数据的添加或更改必须按照实际应用需求进行各种相应方式的同步更新,以确保公有基础数据更新的及时性、准确性,为各业务系统的运行保驾护航。
  3.4 实现思路
  我们进行数据集成的一个目的就是维护数据源整体上的数据一致性、提高信息共享利用的效率,以较低的代价高效率地使用异构的数据,而数据源就是学校各个业务系统的数据库,是集成到中心库的数据抽取的来源。集成中心库中所有的数据都来自于各应用系统,并保持同步更新。由于业务系统在集成之前都采用自己系统内部的编码标准和字段类型,因此,采用ETL数据集成工具,从多个数据源中抽取數据,然后对数据进行必要的转换、清洗和加载,最终得到统一的、完备的主题数据进入集成中心库。在集成中,为了确保数据在交换过程中的安全性,保证原来分散的应用仍能独立运作,需要在集成中心库中根据业务需求建立中间表,将来自于业务系统的数据先加载到中间表,然后经ODI工具转换、清洗后再放入集成中心库的生产表中[5]。
  各业务系统之间不直接进行数据交换,业务系统需要的公共数据先集成到中间库中,再由中间库根据预先设定的对应关系推送这些数据到其他业务系统中。这样做的好处是:降低各个业务系统的耦合度、增加项目的可扩展性、保证了数据质量,并能有效地管理各业务系统间相互访问的权限控制,同时保证了数据的安全性,确保了业务系统在中间库短暂失效时依然能够独立运行。
  3.5 集成方案
  系统集成必须围绕信息需求制定数据集成方案,并需结合信息标准数据流向规划以及业务系统建设使用情况来确定集成边界。需要集成方、信息技术中心、业务部门,第三方公司通力配合完成。
  在进行集成同步方案时有两种方式可以选择,即全量和增量。全量集成指每次在数据同步时都将数据源上的所有数据一次性集成到目标数据库中,以保证数据源和目标数据的一致性。增量集成每次只将业务系统上发生变化了的数据同步到目标库中,以减轻数据库服务器和网络的负担。选择哪种方式多是以数据量的多少来决策,当数据量小的时候,可以采用全量更新数据,但随着业务增长,数据量成几何方式增长时,每次更新的工作将是耗时耗力的,也是业务方无法忍受的。此时,就需要一种解决方案将全量同步更改为增量同步。
  另外,集成的周期选择,对实时性不强或一次同步数据量较大的数据集成,通常选择定期集成,且常将执行计划设定在服务器压力较小,网络使用率较低的半夜或凌晨。无论是同步方式还是集成周期的选择中,应根据业务需求确定,够用即可[6]。   4 結语
  在高校信息化建设的过程中,应用系统的集成是一项十分复杂且极具挑战性的工作,同时也是一项必不可少的环节。只有各个部门通力合作,规范业务流程,确立数据标准,明确数据的权威来源,才能清除“信息孤岛”,实现各个应用系统业务数据的互联互通,推动信息化建设的快速发展。
  [参考文献]
  [1]刘静萍.数字化校园建设中基于ODI的数据集成平台研究[J].青海师范大学学报(自然科学版),2016(2):16-20.
  [2]孙玮.基于ODI技术搭建高校数字化校园公共数据平台[J].软件工程师,2014(7):56-68.
  [3]王超,吴萨.高校异构系统数据整合的设计与实现[J].四川文理学院学报,2015(3):39-41.
  [4]徐琦.基于大数据的高校数据整合模式研究[J].中国教育信息化,2015(15):60-63.
  [5]孙歆,卓荣庆,王蜜.基于ODI的高校异构系统数据整合模型研究[J].中国教育信息化,2015(5):54-57.
  [6]李恒贝,唐惠燕,毛莉菊.基于数据整合的高校信息标准构建研究[J].中国教育信息化,2011(15):13-15.
  Abstract:This paper analyzes the status quo of information construction in colleges and universities, and studies the key issues and technologies of multi-service system heterogeneous database in data integration. It gives the logical or physical realization of heterogeneous database by using ODI technology combined with the actual situation of colleges and universities. Integration, the integration mode can effectively break up the “fragmented data” in the original business system, eliminate the “information island” phenomenon, realize data synchronization, data access consistency, data storage centralized information synchronization and sharing, and promote university informatization construction.
  Key words:data standard; data integration; ETL
其他文献
摘 要:校企合作是职业教育教学改革的必然趋势,同时也是企业快速发展的助推器。如今,校企合作已成为全球高等教育领域的热点研究课题之一。文章以山东凯文科技职业学院校企合作典型案例为例,进行了分析与探讨,总结了成功的经验,指出了需要进一步研究解决的问题,对推进校企合作背景下职业教育教学模式的改革有一定的参考价值。  关键词:校企合作;职业教育;教学  2005年,中华人民共和国《国务院关于大力发展职业教
期刊
摘 要:创新是一个民族进步的灵魂,随着国家政策的支持,已经有相当多的年轻的大学生投身到了创业的大潮中,而且已初见成效,然而面对纷繁多变的社会经济形势和永怀梦想的心,大学生在创业过程中如何正确地认识自我?创业选择过程中长远的人生定位和理想如何确定?自己适合何种类型的创业项目?现实生活中,创业的大学生群体,由于各方面经验的不足,相关能力的欠缺,尤其是自我认知不够清晰,出现创业过程中个人角色和项目定位不
期刊
摘 要:文章以应用型人才培养目标为立足点,针对传感器课程目前存在的问题,提出了以工程实践能力、创新能力为主线的递进式教学模式。通过基础—综合—提高的三层次递进,实现对学生循序渐进的培养,使学生的实践能力得到大幅度提高。  关键词:传感器;递进式;教学模式;应用型  传感技术是信息获取与检测的主要手段,前端信号采集的准确性直接关系到控制系统的成功。因此,传感技术已列为国家重点发展的科技专项。那么关于
期刊
摘 要:随着科技的不断发展,微信、微博等自媒体呈现出迅猛的发展态势,为了满足读者对于高校图书馆的服务需求,运营好微信公众平台就显得尤为重要。文章以南京师范大学图书馆微信公众平台为例,对高校图书馆开通微信公众平台的优势、现状和创新服务策略进行探讨分析,旨在提升高校图书馆利用微信公众平台开展服务的水平。  关键词:微信公众平台;高校图书馆;移动服务  随着信息技术的不断发展,媒体的去中心化也越演越烈,
期刊
摘 要:在人们的普遍印象中,教学是教师与学生面对面进行的。现在新的数字技术为兽医寄生虫的教学和学习提供了新的契机。文章叙述了“兽医寄生虫学”教学现状,在实践教学中利用微课,可以为实践教学环节约了时间,实践课堂以学生为主,教师为辅;为“兽医寄生虫学”课程的教学方法开辟一条新途径。同时介绍了微课制作常用软件、微课评价体系。  关键词:兽医寄生虫学;微课;实验教学  “兽医寄生虫学”是动物医学专业重要的
期刊
摘要:在USB协议中定义了多种类,它们不仅可以实现不同的功能,还能促进USB设备的普及。网络摄像头和USB采集卡中就用到了USB视频类,它的好处是能够实现即插即用,省去驱动的开发工作。一般情况下采用UVC协议的系统是单独采用USB控制芯片来完成整个设计。为了增加设计的多元性,文章采用了 FPGA和USB3.0架构的方式,实现了一种基于UVC协议的图像采集系统。  关键词:UVC协议;USB3.0;
期刊
摘 要:文章将新加坡南洋理工学院与新疆建设职业技术学院建筑动漫技术专业的项目教学进行了分析对比,并由此提出了几点思考和建议。  关键词:建筑动漫技术;项目教学;教学模式  在现代化人才培养理念的引领下,我国高等职业教育改革的重点是提高质量,化解市场需求与人才培养之间的结构性矛盾,加强教学过程与工作场所的衔接,就是将课堂教学和生产劳动结合起来,以一种新方式对学生进行教育。新疆建设职业技术学院建筑动
期刊
摘要:随着柴油机电控系统和车载CAN网络的广泛使用,基于车载网络运行的柴油机故障诊断系统具有非常重要的作用。文章基于嵌入式Linux系统设计了一种能够解析J1939网络协议的柴油机故障诊断模块,具有成本低、可维护性和可扩展性好等优点。在东风康明斯CM2150柴油机上实验结果表明,该模块能够正确高效地实现电控系统故障诊断。  关键词:嵌入式Linux;柴油机;J1939协议  随着车载电控技术的飞速
期刊
摘 要:文章以南京旅游职业学院旅游类专业为例,探索打破职业与教育、企业与学校、工作与学习之间的藩篱,使学校与行(企)业形成“合作双赢”的共同体,形成产教良性互动的“双赢”局面,不仅促进高素质劳动者和技术技能人才的培养,还将促进职业院校和企业共同开展技术研发并将成果转化为生产力,从而推动企业技术进步、产业转型升级和区域经济社会的发展,对于加快现代职业教育改革发展具有战略性意义。  关键词:产教深度
期刊
摘要:随着近年来我国现代化建设的不断推进,职业教育也越来越受到各方面的重视,各种高职教学改革也在不断地推进着。为了认真贯彻职业类院校对于专业技术型人才的培养,各个职业教育阶段之间的衔接显得尤为重要,文章以当下比较热门的计算机网络专业的衔接课程体系的實践情况进行探讨,以期为高职衔接课程体系的进一步发展完善提供合理的思路。关键词:高职衔接;课程体系建设;计算机网络专业  1 高职衔接课程体系建设的必要
期刊