论文部分内容阅读
当前,以大数据、云计算等为代表的新一代信息技术风起云涌,并迅速向金融领域渗透融合。人民银行作为金融管理部门和金融服务单位,决定了央行数据信息的敏感性和多样性,如何能在大数据、云计算这些新技术发展趋势中,完善信息化发展环境,创新信息化服务模式,是新形势下央行履职的要求。本文以人民银行数据综合利用为研究对象,充分发挥业务、信息、技术等多学科的优势,着重研究大数据驱动人民银行数据资源治理、价值挖掘,突出管理与决策的利用,通过对区域金融云大数据应用平台的搭建及运用,建立数据应用研究的新模式。
一、目前金融数据、央行数据分布情况以及存在问题的思考
(一)金融数据分布
全国范围金融机构信息分布概览
(二)央行数据分布
目前,央行有100多个自成体系的独立系统,而且上有多个数据中心,中有32个省级数据中心和32个城市处理中心,下有多个一级节点或二节点。具体如下图所示:
(三)数据收集、整合、应用存在问题
1.数据采集不统一。一是没有实现数据一次采集多方共享。目前各個业务数据没有统一的入口,且数据采集通道不畅通。
二是没有实现开发标准统一、接口统一。各类业务系统没有统一技术标准,存在不同数据接口,采集方式单一。
三是没有实现流程化数据清洗处理。没有应用新技术来实现规范数据采集流程,没有实现对内、对外和经济、金融数据采集的统一规范交互。
2.数据资源孤立。一是获取外部信息不全面。我们目前没有一个平台可以做到对不同类型机构、不同数据格式数据报表能通过统一信息、统一明细数据的上报和抓取。
二是内部信息获取碎片化。目前部门间数据信息碎片化非常严重,数据分散在不同部门、不同科室、不同系统、和不同人员的计算机,各业务数据信息存在条块切割,获取效率不高,不利于决策层面的需要。
三是内、外信息实效滞后分散。目前人民银行与被监管金融机构的评估模式主要为系统交互、按需上报、问卷调查、专家评判决策等模式,数据指标的内外分散、收集时效的滞后、统计信息的缺失将会弱化后续的决策依据。
3.信息资源不共享。目前,人行、政府、其他监管机构关于金融信息的共享及往来,限于金融联席会议、金融内部网络交互平台、金融统计报表传递、多部门联合金融信息交换等较为有限的渠道,金融机构、单位内设部门、政府机构、监管部门的信息都是以各自独立使用数据库方式留存,在部门之间、上下级间、经济金融部门、业务应用和管理应用之间存在信息不对称,标准不统一,难以实现信息的有效共享。
二、区域金融云大数据应用平台的建设及应用
(一)规划“云上央行”
根据人民银行总行数据综合利用研究以及云南省云计算大数据“云上云”规划部署要求,我们在“十三五”期间规划了以私有云为特征、数据统一管理、内外区别利用的云计算大数据“云上央行”应用模式。其基本架构如下:
1.从“连接”需要考虑。目前,人行业务部门在和银行、证券、保险的业务信息连接上是不完整的,有些只和银行连接,与证券、保险等相关部门的连接是完全中断的。通过“云上央行”行动,搭建“两个平台”,实现网络连接和系统连接,通过金融机构编码作为数据信息索引标识、作为数据信息汇聚引擎,实现所有数据信息的连接,实现金融信息处理的创新生态。
2.从“共享”需要考虑。目前,人行业务部门在和银行、证券、保险等单位,都是“各家只顾各家粮”,每个部门都是自己建立一个数据仓库,把自己的业务需求搞定就完成。但随着金融改革的深入,人民银行履职的特殊性,金融数据信息的相互交叉、渗透、融合,仅仅靠掌握自己手中的数据信息,管理人员和分析研究部门会发现越来越势单力薄,能掌握“多少信息”能否看得“再远一点”是各个单位综合部门在进行数据处理和利用时的困惑。通过综合平台,从两个方面为数据信息共享搭建桥梁:
一是对“外”,建立人民银行与外部机构的网络和应用连接,积累大量分析数据信息,增强数据信息的实用价值。
二是对“内”,建立人民银行横向和纵向的数据信息关联机制,以及利用大数据、云计算和云存储,共享数据,实现数据的共创和碰撞,让数据真正地“应用”起来,而不是仅仅“拥有”,力争提升数据综合应用分析能力。
3.从“计算”需要考虑。大数据、云计算首当其冲面临的是数据的处理速度,今天我们购买的高端机、小机、PC机或者建立数据仓库等等一系列都是用来解决计算的问题,综合平台的建立可以降低连接成本;大数据可以降低信息的获取成本,扩大信息的获取范畴;提供海量数据的实时处理速度。
(二)建设大数据应用平台
我们结合工作实际,从各个业务处室提出的成百上千的统计报表汇聚;经济金融运行中关联数据的使用;数十年海量数据的利用窘境,从如何融合、共享、分析、展示部门之间的信息,为全行各职能部门研判决策提供支撑出发,依托虚拟化平台,实施建设区域金融云大数据应用平台。
1.搭建BI(商业智能)系统架构。在系统整体架构中采用业界先进的BI(商业智能)技术架构,集成ETL技术、OLAP技术、报表技术、分布式大数据技术、数据挖掘技术和云计算技术,有效地保系统障了数据的时效性、准确性和易用性。逻辑架构如下图所示:
2.采取分布式大数据处理核心技术。区域金融云大数据应用平台的数据技术涵盖了硬软件多个方面的技术,采用的大数据处理的核心技术DB2 DPF和Hadoop。目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。
3.建立分布式数据库物理结构。平台采用DB2 DPF实现非共享体系架构的分布式高性能数据处理和大数据量存储环境。
(三)大数据应用研究成果
以编码信息为例,我们通过对业务的理解、数据准备、建模开展了以金融机构编码信息为收索引擎的模型应用分析。
利用金融机构编码汇聚众多金融机构业务信息和编码信息的之间的关系,以及相互之间是如何影响的,对于数据分析是非常重要的。关联规则模型可以依据业务发生对象的行为,通过算法找出业务趋势和监测对象的相关性,如图:
目前BMS系统内登记了银行、证券、保险机构信息并为每一家机构赋予了唯一的金融属性的识别码,金融机构编码也嵌入ACS、账户、反洗钱、国库、征信等应用系统系统内。以机构编码为信息会聚、搜索“结点”从“机构信息直接分析”、“机构信息业务关联分析”、“机构监测应用分析”三个维度(时间、地域、访问者)展示数据应用研究的一个成果:
三、未来发展展望
一是通过数据分析挖掘平台在多个基础业务部门开展数据挖掘研究,通过立方体多维分析服务,借助下钻、上钻、切片、旋转等便捷的操作实现对热点和关注点的深入分析和全方位了解围绕金融监测、货币政策、金融稳定提供利用价值。
二是选取某一关注点,通过数据分析平台实现的数据整合资源,利用大数据的技术去寻找不同变量间新的相关关系,建立1-3个决策模型,利用算法把大量碎片化数据进行整合形成拼图,对“数据”深度研究还原数据反映的某一类趋势的真实情况。
三是以实验的方式验证大数据的思维方式和大数据应用的推广方案,把一些没有经过数据实证的假设当成真理性的结论。
一、目前金融数据、央行数据分布情况以及存在问题的思考
(一)金融数据分布
全国范围金融机构信息分布概览
(二)央行数据分布
目前,央行有100多个自成体系的独立系统,而且上有多个数据中心,中有32个省级数据中心和32个城市处理中心,下有多个一级节点或二节点。具体如下图所示:
(三)数据收集、整合、应用存在问题
1.数据采集不统一。一是没有实现数据一次采集多方共享。目前各個业务数据没有统一的入口,且数据采集通道不畅通。
二是没有实现开发标准统一、接口统一。各类业务系统没有统一技术标准,存在不同数据接口,采集方式单一。
三是没有实现流程化数据清洗处理。没有应用新技术来实现规范数据采集流程,没有实现对内、对外和经济、金融数据采集的统一规范交互。
2.数据资源孤立。一是获取外部信息不全面。我们目前没有一个平台可以做到对不同类型机构、不同数据格式数据报表能通过统一信息、统一明细数据的上报和抓取。
二是内部信息获取碎片化。目前部门间数据信息碎片化非常严重,数据分散在不同部门、不同科室、不同系统、和不同人员的计算机,各业务数据信息存在条块切割,获取效率不高,不利于决策层面的需要。
三是内、外信息实效滞后分散。目前人民银行与被监管金融机构的评估模式主要为系统交互、按需上报、问卷调查、专家评判决策等模式,数据指标的内外分散、收集时效的滞后、统计信息的缺失将会弱化后续的决策依据。
3.信息资源不共享。目前,人行、政府、其他监管机构关于金融信息的共享及往来,限于金融联席会议、金融内部网络交互平台、金融统计报表传递、多部门联合金融信息交换等较为有限的渠道,金融机构、单位内设部门、政府机构、监管部门的信息都是以各自独立使用数据库方式留存,在部门之间、上下级间、经济金融部门、业务应用和管理应用之间存在信息不对称,标准不统一,难以实现信息的有效共享。
二、区域金融云大数据应用平台的建设及应用
(一)规划“云上央行”
根据人民银行总行数据综合利用研究以及云南省云计算大数据“云上云”规划部署要求,我们在“十三五”期间规划了以私有云为特征、数据统一管理、内外区别利用的云计算大数据“云上央行”应用模式。其基本架构如下:
1.从“连接”需要考虑。目前,人行业务部门在和银行、证券、保险的业务信息连接上是不完整的,有些只和银行连接,与证券、保险等相关部门的连接是完全中断的。通过“云上央行”行动,搭建“两个平台”,实现网络连接和系统连接,通过金融机构编码作为数据信息索引标识、作为数据信息汇聚引擎,实现所有数据信息的连接,实现金融信息处理的创新生态。
2.从“共享”需要考虑。目前,人行业务部门在和银行、证券、保险等单位,都是“各家只顾各家粮”,每个部门都是自己建立一个数据仓库,把自己的业务需求搞定就完成。但随着金融改革的深入,人民银行履职的特殊性,金融数据信息的相互交叉、渗透、融合,仅仅靠掌握自己手中的数据信息,管理人员和分析研究部门会发现越来越势单力薄,能掌握“多少信息”能否看得“再远一点”是各个单位综合部门在进行数据处理和利用时的困惑。通过综合平台,从两个方面为数据信息共享搭建桥梁:
一是对“外”,建立人民银行与外部机构的网络和应用连接,积累大量分析数据信息,增强数据信息的实用价值。
二是对“内”,建立人民银行横向和纵向的数据信息关联机制,以及利用大数据、云计算和云存储,共享数据,实现数据的共创和碰撞,让数据真正地“应用”起来,而不是仅仅“拥有”,力争提升数据综合应用分析能力。
3.从“计算”需要考虑。大数据、云计算首当其冲面临的是数据的处理速度,今天我们购买的高端机、小机、PC机或者建立数据仓库等等一系列都是用来解决计算的问题,综合平台的建立可以降低连接成本;大数据可以降低信息的获取成本,扩大信息的获取范畴;提供海量数据的实时处理速度。
(二)建设大数据应用平台
我们结合工作实际,从各个业务处室提出的成百上千的统计报表汇聚;经济金融运行中关联数据的使用;数十年海量数据的利用窘境,从如何融合、共享、分析、展示部门之间的信息,为全行各职能部门研判决策提供支撑出发,依托虚拟化平台,实施建设区域金融云大数据应用平台。
1.搭建BI(商业智能)系统架构。在系统整体架构中采用业界先进的BI(商业智能)技术架构,集成ETL技术、OLAP技术、报表技术、分布式大数据技术、数据挖掘技术和云计算技术,有效地保系统障了数据的时效性、准确性和易用性。逻辑架构如下图所示:
2.采取分布式大数据处理核心技术。区域金融云大数据应用平台的数据技术涵盖了硬软件多个方面的技术,采用的大数据处理的核心技术DB2 DPF和Hadoop。目前各种技术基本都独立存在于存储、开发、平台架构、数据分析挖掘的各个相对独立的领域。
3.建立分布式数据库物理结构。平台采用DB2 DPF实现非共享体系架构的分布式高性能数据处理和大数据量存储环境。
(三)大数据应用研究成果
以编码信息为例,我们通过对业务的理解、数据准备、建模开展了以金融机构编码信息为收索引擎的模型应用分析。
利用金融机构编码汇聚众多金融机构业务信息和编码信息的之间的关系,以及相互之间是如何影响的,对于数据分析是非常重要的。关联规则模型可以依据业务发生对象的行为,通过算法找出业务趋势和监测对象的相关性,如图:
目前BMS系统内登记了银行、证券、保险机构信息并为每一家机构赋予了唯一的金融属性的识别码,金融机构编码也嵌入ACS、账户、反洗钱、国库、征信等应用系统系统内。以机构编码为信息会聚、搜索“结点”从“机构信息直接分析”、“机构信息业务关联分析”、“机构监测应用分析”三个维度(时间、地域、访问者)展示数据应用研究的一个成果:
三、未来发展展望
一是通过数据分析挖掘平台在多个基础业务部门开展数据挖掘研究,通过立方体多维分析服务,借助下钻、上钻、切片、旋转等便捷的操作实现对热点和关注点的深入分析和全方位了解围绕金融监测、货币政策、金融稳定提供利用价值。
二是选取某一关注点,通过数据分析平台实现的数据整合资源,利用大数据的技术去寻找不同变量间新的相关关系,建立1-3个决策模型,利用算法把大量碎片化数据进行整合形成拼图,对“数据”深度研究还原数据反映的某一类趋势的真实情况。
三是以实验的方式验证大数据的思维方式和大数据应用的推广方案,把一些没有经过数据实证的假设当成真理性的结论。