论文部分内容阅读
随着大数据时代的到来,数据驱动的商业模式日益受到企业的青睐,通过对大数据的处理和分析,可以更好的进行商业决策、科学计算以及其市场趋势的预测等,数据的重要性日益突显。然而,大数据的一些新的特征给数据处理带来了新的挑战。目前,在金融领域里,分布广泛的金融系统每天都会产生大量的数据,而风险管理、预测等工作都需要对分散在这些系统中的大量数据进行采集、整合以及处理。一方面由于系统结构的复杂性,尤其是数据存储结构的多样性,导致了传统数据仓库技术无法对大量的异构数据进行整合及处理;另一方面,由于金融行业其行业的特殊性,常常受到各种外界条件的影响,例如合规、政策等,这些外界条件的变化将直接导致对数据分析策略的改变,从而影响到最终的结果。针对上述两方面问题,本文提出了一种可以对复杂金融环境下的异构数据信息进行整合及处理的基于语义的大数据处理系统。在数据整合方面,该系统通过语义技术将各种异构数据以语义资源的形式发布到语义本体库中,在语义层面上实现数据的查询与计算;数据处理方面,该系统通过采用Hadoop分布式计算框架以及MAP-REDUCE技术实现大数据的分布式计算,从而大大提高数据的处理效率。本文结构安排如下:第一章,结合大数据的面临的问题以及金融领域大数据背景,总结了金融领域面临大数据的面临的相关问题,并针对这些问题提出了基于语义的大数据处理系统模型;第二章,主要介绍了语义,数据整合,分布式计算等方面的相关技术;第三章,从层次结构上阐述了提出的系统模型;第四章,详细介绍了基于语义的关系数据整合及分布式查询方案的设计及实现,同时介绍了该系统数据采集方案;第五章,对基于大数据的分布式处理技术进行相关研究,同时对系统性能方面进行了相关测试分析及优化;第六章,总结全文。