论文部分内容阅读
商业银行每天随着交易的发生产生大量的金融数据,除交易数据外,还包括大量各类结构化和非结构化的数据,例如客户操作行为、扫描单据、视频、录音等,这些数据在银行内各个系统中分散存储,难以统一进行分析和利用。此外,大部分数据来源于交易系统,但交易系统出于存储容量及性能的考虑,往往不会长期存储操作痕迹、状态等过程数据,而是采取定期清理等策略,清理后将难以追溯某一时点的特定数据。随着监管要求和银行管理要求的提高,对历史数据的完整性要求也越来越高;商业银行进行客户精准营销、风险模型建设等与数据分析挖掘相关的应用,也要求历史数据可完整的保存并易于查询。随着数据的存储技术和大数据技术的发展,基于大数据平台技术为基础框架建设商业银行的归档数据仓库,实现商业银行海量历史数据的存储和处理平台,以支撑商业银行对历史数据查询、原始交易数据查询等各类应用场景,帮助实现对大数据的处理与运用,是商业银行历史数据归档数据仓库构建的未来趋势所在。本文以某商业银行的归档数据仓库为例,对支持大数据的分析应用方向进行了深入的研究。通过数据采集功能、数据处理功能、数据存储功能、数据访问功能、调度和监控功能等,建立历史数据存储、管理和应用的归档数据仓库。从技术上来说,利用Hadoop大数据的分布式框架的运用,包括HDFS、Hive、HBase等项目,提供基于海量历史数据的归档和查询。本文搭建了基于Hadoop的大数据处理平台,该平台提供Hadoop集群的管理功能、监控功能和诊断功能,提供大数据平台的监控、操作、配置、日志查看、性能报告等管理界面。在此基础上,对银行归档数据的数据仓库进行了设计,归档存储银行重要系统的数据,包括对核心、手机银行、信贷等业务系统的账务、流水等数据表进行T+1的数据归档存储,进行长历史的存储,满足历史数据各式各样的查询场景。本文使用Perl语言对常用功能进行了封装,提供公共组件,如文件传输、Oracle数据卸载、hive数据装载/卸载等公共函数。实现了多版本的数据访问服务,提供数据表任意历史时间的原始表结构和数据访问。系统测试表明,本文设计的数据仓库可提供历史数据的在线查询服务,提供账务、交易流水等数据表时点快照信息的查询服务。满足司法机关查询、内外部审计、监管等历史数据需求,提供批量数据供应服务,满足历史数据的批量导出需求。