基于Hadoop的银行实时统计报表研究与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:gracestoney
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通常来说,银行的生产经营情况多通过报表的形式进行展示,并通过对报表数据进行智能化的统计分析,得到对银行管理层决策有用的信息。报表系统是利用计算机对数据进行专门统计分析并生成报表的工具,在银行运行和管理中起到非常重要的作用。本文通过对某银行的报表系统研究,发现了两个问题,一是无法很好完成千万级以上的数据计算,二是对报表数据进行实时统计、查询。该银行的现有报表系统利用存储过程对数据进行计算,由于交易数据量持续增长,当数据量过大时,利用存储过程对数据进行计算的方式效率过低,无法满足当前对数据计算的需求;另外,该银行进行报表数据查询时,现有系统是对数据进行离线计算,然后直接查询数据库获取计算结果,这种方案存在两个问题:一是当查询数据总量达到千万级以上时,无法满足快速查询的要求,而且查询对数据库产生了巨大的压力;二是数据无法实时统计、查询。针对上面存在的问题,本文提出了具体的解决方法。(1)针对千万级以上的数据无法很好地进行计算的问题,采用“分治”的思想,提出了使用HDFS完成数据存储和MapReduce并行计算的方法,对数据计算并保存为中间文件,然后对中间文件合并的解决方案,成功实现了大数据量的计算。(2)针对无法对报表数据进行实时统计、查询的问题,本文引入了分布式索引技术SolrCloud,利用其高效的多并发查询功能,极大缩短报表数据查询、统计时间。通过实验证明,这个方法达到了实时报表统计、查询的目的。通过实验测试分析,针对上面问题设计的实时统计报表系统很好地完成了千万级以上数据的计算,并可以实时查询交易数据的统计结果,实现了最初系统设计的目标。
其他文献
背景:非小细胞肺癌(non-small cell lung cancer,NSCLC)是肺癌的主要病理类型,约占肺癌发病总人数的85%,5年生存率较低。近年来,随着分子生物学的快速发展,极大的提高了NSCLC
当前测试和可测性设计的理论已经成为超大规模集成电路领域中的一个重要研究方向,在理论和实践方面都有十分突出的价值。本章讨论了芯片开发和生产过程中交流参数测试的基本
随着互联网在大学生群体中全面覆盖,网络道德问题也随之而来。对此,近年来已有不少高校思想政治教育工作者从不同视角对大学生网络道德问题进行研究。本文通过对当代大学生群
<正>意象是艺术的眼晴,是艺术家向世界发言的话简。因此,体味作品的意象世界几乎成了我们走近艺术、走进艺术家心灵的惟一途径。当代著名人物画家赵根成在近二十年的创作实践
采用射频-直流磁控溅射法,首先通过不同沉积时间在普通玻璃基底表面得到了不同厚度的碳氧化硅过渡层,然后在过渡层上沉积DLC薄膜。采用X射线衍射仪(XRD)、共焦显微拉曼光谱仪
为研究醇化过程中烤烟烟叶表面可培养真菌的多样性,选取国内外25个不同产地、等级的正常、霉变烟叶为研究对象,利用平板分离和分子生物学方法对烟叶表面的可培养真菌进行鉴定
7月9日,国家发展改革委组织召开全国电视电话会议,安排部署2020年能源迎峰度夏工作。国家发展改革委副主任连维良出席会议并作重要讲话,国家能源局副局长刘宝华提出工作要求,
怀胎十月,在这280多天里,孕妇不可能都以“钢铁之躯”而不患头疼脑热、肚痛拉稀,以及各种不可预测的疾病。除了患上那些确认为有损胎儿、不利优生的疾病应该人流、引产中止妊娠,
企业内部市场化的核心之一是建立“内部市场链”,进行“链式管理”。所渭“内部市场链”,就是贯穿企业内部业务流程的交易链条。在企业内部市场化条件下,由于引入了市场运作机制
<正>近几年,不论是在公开课,还是在评优课中都出现了"同课异构"的形式,即不同选手选择同一课题上课。去年,我有幸作为评委参加了市、区两级高中政治优质课评比,对"同课异构"