大数据处理综合处理服务平台的设计与实现

来源 :科学与财富 | 被引量 : 0次 | 上传用户:TSSSSSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  (广州城市职业学院 广东 广州 510405)
  摘要:在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。大数据综合处理服务平台支持灵活构建面向数据仓库、实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性。该服务平台以SOA为基础,采用云计算的体系架构,整合多種ETL技术和不同的ETL工具,具有统一、高效、可拓展性。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。该研究与设计打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,充分实现了“资源共享、低投入、低消耗、低排放和高效率”,值得大力发展和推广。
  关键词:面向金融,大数据,综合处理服务平台。
  一、研究的意义
  目前,全球IT行业讨论最多的两个议题,一个是大数据分析“Big Data”, 一个是云计算 “Cloud Computing”。中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。据IDC(国际数据公司)预测,用于云计算服务上的支出在接下来的5 年间可能会出现3 倍的增长,占据IT支出增长总量中25%的份额。目前企业的各种业务系统中数据从GB、TB到PB量级呈海量急速增长,相应的存储方式也从单机存储转变为网络存储。传统的信息处理技术和手段,如数据库技术往往只能单纯实现数据的录入、查询、统计等较低层次的功能,无法充分利用和及时更新海量数据,更难以进行综合研究,中国的金融行业也不例外。中国五大国有商业银行发展至今,积累了海量的业务数据,同时还不断的从外界收集数据。通过对不同来源,不同历史阶段的数据进行分析,银行可以甄别有价值潜力的客户群和发现未来金融市场的发展趋势,针对目标客户群的特点和金融市场的需求来研发有竞争力的理财产品。所以,银行对海量数据分析的需求是尤为迫切的。再有,在信息技术高速发展的今天,金融业面临的竞争日趋激烈,信息的高度共享和数据的安全可靠是系统建设中优先考虑的问题。随着国内银行业竞争的加剧,五大国有商业银行不断深化以客户为中心,以优质业务为核心的经营理念,这对银行自身系统的不断完善提出了更高的要求。而“云计算”技术的推出,将成为银行增强数据的安全性和加快信息共享的速度,提高服务质量、降低成本和赢得竞争优势的一大选择。
  面向金融领域的海量数据综合处理服务平台融合了分布式云计算技术、SOA技术、ETL技术、作业调度技术,以SOA为基础,采用云计算的体系架构,整合多种ETL技术和不同的ETL工具,为金融行业建立统一、高效、可拓展的面向金融领域的海量数据综合处理服务平台。该平台支持灵活构建面向数据仓库、数据集市、数据集文件进行海量数据的处理、加工和交换,实现批量作业的原子化、参数化、操作简单化、流程可控化,并提供灵活、可自定义的程序接口,具有良好的可扩展性,是一个基础服务框架的产品平台。该系统整合金融机构的客户、合约、交易、财务、产品等主要业务数据,提供客户视图、客户关系管理、营销管理、财务分析、质量监控、风险预警、业务流程等功能模块。系统支持构筑面向运营的服务平台,可以按功能点或数据量来向使用方收费,使用方按格式要求提供数据,然后点击相关功能模块得到目标结果。
  随着全球各行业对数据整合应用需求的扩大,“面向金融领域的海量数据综合处理服务平台”的需求将会越来越大。该平台为银行、证券、保险行业等金融领域服务业创新和转型升级提供决策支持,能有效推进信息化技术在传统金融优势产业的融合渗透,属于国家优先发展和重点支持技术领域。从宏观的角度来看,通过本服务平台的实施,能促进我国金融信息化的发展,调整产业结构,同时增强企业品牌竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,促进传统优势企业走新型信息化道路,完善社会主义市场经济体制,符合我国“十二五”规划刚要发展的特点,对全面建设小康社会新胜利、推进中国特色社会主义伟大事业,具有十分重要的意义。
  二、 平台设计的技术线路
  1、 基础技术架构采用了当前先进的云计算技术,系统采用基于Hadoop架构计算模式,突破传统数据库系统对海量数据处理的速度限制,通过对大量数据的并发访问和处理,极大地提高了数据处理效率。
  2、 基于SOA方式的批量处理作业调度逻辑设计,采用集中式管理、分布式、多节点并行运算的设计概念,实现跨平台、面向数据、高效并发调度多个海量批处理作业。
  3、 采用ETL技术,完成海量数据从源系统到数据仓库再到数据集市加工、处理、集成的过程。同时,平台支持整合主流的ETL工具(DataStage、Informatica、Sagent等)和对可执行程序和存储过程的调用。
  4、 采用作业调度技术,通过统一的操作平台和图形化界面,定义批量作业的调度策略和调度规则,实现跨平台、跨系统的批量作业的调度、执行和监控;同时,平台通过并发控制和动态负载均衡实现性能的最大优化。
  5、 采用影像处理技术实现影像的扫描、处理、分类、上传。影像扫描通用平台集成了一系列对文件处理、文件扫描、影像处理、文件上传的逻辑,通过一系列的抽象和转化,使开发人员可以忽略内部细节而直接针对业务逻辑进行设计。
  6、 通过工作流技术实现业务线上的流转和审批,并结合电子化影像,极大地提高了工作效率。
  三、平台的功能与架构
  1、数据整合层
  通过SOA技术、ETL技术、hadoop的HDFS技术、影像处理技术,高效整合来自各个业务系统的数据,保证系统数据的一致性、准确性和完整性。数据经过加工处理,根据数据格式和数据量,分别存储在关系型数据库、hadoop HBASE、影像存儲平台中,再根据主题应用,将数据整合加工存储在“应用数据存储”,为用户提供一个统一的干净的数据视图。   2、基础架构层
  采用hadoop来构建分布式并行计算平台,主要由MapReduce的算法执行和一个分布式的文件系统(HDFS)两部分组成,hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势。
  采用公司有自主知识产权的ETL软件包或整合主流的ETL工具(DataStage、Informatica、Sagent等)来构建数据ETL平台。
  采用Brio构建数据查询、分析、统计报表平臺。
  采用Oracle和hadoop HBASE搭建数据存储平台。Oracle采用传统的方式存储数据。HBase是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的、面向列的数据库实现方式,建立在hadoop的hdfs上,一方面用了hdfs的高可靠性和可伸缩行,另外一方面用了BigTable的高效数据组织形式,为海量数据加工处理存储提供了很好的解决方案。
  采用JBPM管理并配置流程,实现对流程的读取和保存操作,并推动流程的流转。
  采用Websphere支持WEB应用,用户只需通过浏览器即可登录系统进行相关操作,提高了易用性和可维护性。
  3、集成与服务层
  集成与服务层整合了ETL引擎、作业调度引擎、规则引擎、影像处理引擎、工作流引擎来实现关键技术路径,并通过组件化设计,保证了系统的灵活性和可扩展性。系统还提供了管理监控服务、云计算服务、数据平台服务等。
  4、应用层
  在数据整合层、基础架构层、集成与服务层的基础上实现针对业务数据加工、客户视图、客户关系管理、营销管理、财务分析、资产质量监控、风险预警、业务分析、统计报表等应用。
  系统物理架构如下:
  > 数据源:数据来源于多个业务系统;
  > ETL服务器:多台服务器组成集群,部署hadoop HDFS、datastage工具、etl软件包,实现海量数据的综合处理;
  > 存储服务器:多台服务器组成集群,部署oracle数据库、hadoop HBASE来存储数据,部署影像存储平台来存储影像文件;
  > WEB应用服务器:部署IBM Webspshere application Server,支持WEB应用,部署JBPM支持工作流应用;
  > 分析应用服务器:部署Brio服务器,支持分析、统计、报表应用;
  > 客户端:客户端采用普通PC,客户端浏览器要求IE5.5以上;
  > 网络:服务器、客户端通过TCP/IP网络进行连接。
  四、关键技术与创新性
  云计算技术:本服务平台采用高性能的分布式云计算技术,实现海量文件存储、海量数据存储和统一的海量数据处理编程方法和运行环境。云计算主要基于虚拟化和分布式并行架构两大核心技术,虚拟化平台将服务器虚拟为多个性能可配的虚拟机,对整个集群系统中所有虚拟机进行监控和管理,并根据实际资源使用情况对资源池灵活分配和调度。虚拟化技术不仅消除大规模异构服务器的差异化,其形成的计算池可以具有超级的计算能力。分布式并行架构是云计算的另一个核心技术,用于将大量的低配置机器整合为一台高性能计算机,提供海量的数据存储和处理服务。
  SOA技术: 面向服务的体系结构(service-oriented architecture,SOA)是一个组件模型,它将应用程序的不同功能单元(称之为服务)通过这些服务之间定义良好的接口联系起来。接口是独立于实现服务的硬件平台、操作系统和编程语言的。采用SOA技术实现处理、运行、监控服务之间的松耦合,使系统变得更加灵活,以适应不断变化的业务需求和环境。
  ETL技术:ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。ETL作为构建数据仓库的一个重要环节,负责将分布的、异构数据源中的数据如关系数据、平面数据文件等加工到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据集市,作为联机分析处理、数据挖掘的数据基础。采用自主开发的ETL工具或整合主流ETL工具,通过周期性的刷新,为用户提供一个统一的干净的数据视图,为数据分析提供一个高质量的数据源。
  作业调度技术:数据仓库、数据集市的批量作业数量很多、处理流程和作业依赖关系复杂多样、性能低下,是ETL处理加工遇到的常见问题,系统采用作业调度技术,通过统一的操作平台和图形化界面,定义批量作业的调度策略和调度规则,实现跨平台、跨系统的批量作业的调度、执行和监控。针对数据量巨大、源数据文件多、加工逻辑复杂的系统,使用作业调度技术达到简化管理复杂度,提高系统总体性能的目的。
  影像处理技术:采用我公司自有知识产权的影像扫描通过平台来实现影像的处理及上传。
  扫描影像:作为一个插件,该软件可以在IE浏览器平台上调用各种扫描设备扫描图像,并按照预先设定的摸板,对影像自动存盘,并对扫描的影像进行数据格式压缩,确保传输文件的大小。
  影像处理:对扫描出来的影像提供了预览的功能,支持放大、缩小查看。对影像还具有自动去黑点、去黑框、自动纠偏,以及旋转角度等功能。
  影像分类:对扫描的影像文件提供分类文件夹,便于用户按照实际的业务需求来进行分类。
  文件操作:支持影像文件的一般操作,如复制、粘贴、删除、建立文件夹等功能,并支持缩略图的拖拉操作。
  影像上传:对于指定的影像资料,在特定的目录下,支持影像的上传功能,由服务器进行影像的存放及數据库更新。在传输过程中严格保证文件传输的准确性。
  工作流技术:采用基于Java的jBPM作为工作流引擎,来设计、优化、运行并控制业务流程。jBPM作为工作流引擎,支持可视化流程定义、版本化部署以及日志跟踪。系统充分利用jBPM原有特性的基础上做了优化和封装,尤其是优化了流程的执行、改善流程执行的效率、提高系统的并发性能。
  六、技术推广与社会效益
  在未来的五年内,国际金融市场对数据仓库和数据分析的市场需求将会持续增长,本服务平台开发的数据仓库支撑技术将得到进一步的升级改造。同时,进一步推进国内金融信息化同行对数据仓库相关的支撑技术的研发投入,包括云计算技术、商业智能分析、ETL工具、超并行数据库系统、海量数据挖掘、SOA技术、作业调度等技术的开发和进步。从而大大推动国内商业智能技术在金融行业的普遍应用,缩短国内银行业IT技术与外资银行、全球金融信息化技术的差距,增强软件企业品牌竞争力,提高企业在国内外信息科技领域的知名度,打破跨国厂商在金融软件方面的垄断地位,对国内金融信息化产业的发展,加快我国转变经济发展方式,保持经济平稳较快发展,具有一定的推动作用。
  作者简介:杨桂珍(1967/11)女,讲师,硕士,主要研究方向:信息服务及职业教育
其他文献
(中石化胜利油田分公司胜利采油厂 山东东营 257000)  摘要:细胞活,肌体壮。面对低油价、寒冬期的严峻形势,采油厂、管理区把提质增效的着力点放在单井、单台、单项、单人上,创新实施了“单体细胞创效工程”,把各项工作落细、落小、落实,点点滴滴降成本、群策群力增效益,实现成本的末端控制。  关键词:单体;细胞;创效;活力;成本;控制  一、实施单体细胞创效工程的背景  油公司体制下,作为操作层注采
期刊
(河南省商丘市商丘工学院 476000)  摘要:本文就智能家居在房屋建筑中的应用做了简单探讨,同时讨论了智能家居在我国的发展现状和发展趋势,以及当前我国智能家居发展存在的问题。介绍了有关楼宇智能化与家居智能化的构成与功能,同时讨论了智能家居系统在“绿色建筑”中的应用,对于节约能源、绿色环保有着很大的贡献。  关键词:智能家居;智慧家庭;绿色建筑;智能化  1 引言  隨着经济和科学技术的高速发展
期刊
(中国计量大学 浙江杭州 310018)  摘要:随着社会科学技术的高速发展,電力事业也得到相应的发展,人们对电力资源的质量要求也日益提高。变压器作为电力系统中重要的组成部分,它的运行情况受到电力系统人员的高度关注。电力变压器在长期的高速运转中会出现故障,如果对这些故障不能做出全面的分析,那么在短时间内也无法使它恢复正常运作,也会对后期电力的稳定运行留下隐患。所以,笔者将会从电力变压器实验及运行中
期刊
(国家新闻出版广电总局五九四台 712028)  摘要:TSW2500型500kW的发射机使用短波广播,本课题主要研究风冷系统的组成部分,并结合实际运行,予以相应的维护措施。  关键词:TSW2500型500kW发射机;风冷系统;维护  一、前言  发射机风冷系统主要的功能就是运用冷却风降低机器各产热部温度,以便各部件正常工作,例如,电子管系统和机箱部分零件,这样稳定的工作环境,不仅可以保护因温度
期刊
(1郝现采油管理区河111采油站 山东东营 257000 2 现河采油厂草西采油管理区维修二站 山东东营 257000 3 现河采油厂现河庄采油管理区维修二站 山东东营 257000)  摘 要: 目前油田常用的三相异步电动机,抽油机使用的电动机工作载荷是带冲击的周期性交变载荷,与按恒定载荷设计制造的通用电动机的工作特征不匹配。通用电动机的机械特征是硬特征,在运行过程中其转速随载荷变化不大,而抽油
期刊
(广东长天思源环保科技股份有限公司 528100)  摘要:文章首先对当前污染源在线监控系统运行与维护过程中存在的问题进行全面、系统的分析,并在此基础上结合笔者工作经验,探讨与之相关的解决对策,以此来为日后系统运维工作效率的提升提供参考,进而将污染源在线监控系统的作用最大限度发挥出来。  关键词:污染源;在线监控;运行与维护  现代工业的发展推动了我国社会经济的持续进步,但同时也对我国生态环境造成
期刊
(江苏师范大学 221116)  摘要:身份称谓词是现代汉语称谓词中非常重要的部分,在实际的言语交际中往往存在着使用范围模糊不清的情况。汉语中称谓词系统非常复杂,我们以常常会具有多重身份的大学教师为例,从古汉语的流变、面称与背称、文化背景等三个方面研究其身份称谓词的使用范围。  关键词:职务称谓词;古汉语的流变;面称与背称;文化背景  引言  语言作为人类的交际工具、认知世界的媒介以及文化的载体,
期刊
(中国计量大学 浙江杭州 310018)  摘要:随着经济快速发展,人们生活水平也得到了相应的提高,对于电力的需求量也越来越大。在所有电器设备中,高效能电机是重要的组成部分。本文主要对高效能电机在电器设备中的运用进行深入分析,促使高效能电机发挥出更大的作用,为相关部门和工作人员提高有效借鉴和参考。  关键词:高效能电机;电器设备;运用分析  前言  与普通电机相比,高效能电机通过使用新型材料,并对
期刊
(辽宁省第三地质大队 122000)  摘要:本文通过几个方面对斑岩型铜矿的成因进行具体分析,对国内外斑岩铜矿的产生及成矿做了具体的研究,为日后寻找斑岩类铜矿床奠定了一定的理论基础。  关键词:斑岩铜矿;岩浆热液;板块构造;变质岩;成矿;原因  一、斑岩铜矿的特征  斑岩铜矿(porphyrycopper deposits)通常是指与具有斑状结构的花岗岩类侵入体共生的浸染状、细脉浸染状和细脉状铜和
期刊
(郑州大学 专业:环境工程 450001)  摘要:水资源是人类赖以生存的重要资源,中国的水资源相对稀少,而随着生产的发展,产生了大量的有毒物质并排入城市污水排放系统,城市污水大多直接的排入了河流湖泊,造成了严重的污染。因此,城市污水的处理便成为了一件非常重要的事情,同时由于国内情况的复杂,导致污水处理也十分困难。几十年来,我国的污水处理工艺在不断的发展,逐渐的系统化、完整化。本文将简要的阐述城市
期刊