论文部分内容阅读
存储在企业内部计算机系统之中的日益增长的财务数据暗藏着诸多有价值的信息。在不断变化的数据分析这一需求下,当这些待分析的数据的量大到一定程度之后,如何实施数据分析操作并实时获得结果正日益成为一个挑战。若使用传统方法,分析操作被发起之后,往往需要等待一段不短的时间,从几十分钟到几天不等,待系统处理结束之后才得到结果。这样实时性需求无法得到满足。为了缩短处理时间,有些系统采取预生成预先定义维度的物化的中间汇总结果这一技术,这样只能支持预先定义维度的相关信息的快速获取,无法满足灵活多变地任选维度进行数据分析的需求。内存计算技术是目前比较热门的技术话题。它采用列方式将数据存储在磁盘中,并且将数据按列压缩。运行时数据全部加载到计算机主存中。在数据操作过程中,一旦数据被需要时立即从主存加载到中央处理器缓存中被处理,相对于传统方法中数据被需要时,先从磁盘加载到主存,然后再从主存加载到中央处理器缓存,大大减少了中央处理器因等待数据而空闲的时间。同时它充分利用计算机中央处理器的多内核,并行处理数据操作。这样大大缩短一次数据分析操作的所需时间。除了从磁盘到中央处理器缓存的数据加载过程这一影响性能的瓶颈之外,另一个瓶颈是:在当前流行的三层企业系统架构体系下,数据总是需要在数据层和逻辑层之间双向传递多次,当数据量达到海量时,这对性能的消耗相当可观。内存计算技术提供在数据层进行内存计算的能力,逻辑层和数据层之间的界限被去除,大大减少大数据传递所带来的性能损耗。本文在分析内存计算技术及其实现框架之后,提出了一个两层架构的企业海量财务数据实时分析系统。以两层架构中的数据层为重点,首先详细阐述系统要分析的数据对象,接着明确系统的设计原则,确定系统功能与界限,提出系统设计方案,然后详细讨论系统实现的主要部分:数据层模型视图,最后通过比较测试证明内存计算技术在企业海量财务数据实时分析领域的价值。