论文部分内容阅读
三峡库区是我国地质灾害多发区,为了保护库区人民生命财产安全,实现库区社会长治久安及经济、环境和谐发展,我们为地质灾害的有效防治不断地努力,在此过程中也积累了大量的宝贵资料。如何有效地组织、提取和分析这些资料,为地质灾害防治管理、决策指挥提供有力的支持变得非常重要。
数据仓库技术在海量数据的管理与分析方面得到了广泛应用,并取得了很好的效果,虽然它在三峡库区地质灾害领域的应用尚未发现,但我们完全可以考虑本文用数据仓库这个已经比较成熟的技术来解决地质灾害防治数据的存储、管理、分析和决策问题。而ETL过程是数据仓库的核心,是获取高质量数据的保障,也是数据仓库项目中牵扯精力最多的部分。
本文首次以数据仓库技术为基础,结合三峡库区地质灾害防治数据的特点,制订了适用于三峡库区地质灾害防治数据抽取、清洗、转换、加载到数据仓库的策略。本文应用OracleWarehouse Builder在建立三峡库区地质灾害防治数据仓库的过程中对数据进行集成,通过集成与预警指挥系统主题相关的具体数据,为预警指挥系统提供高质量的数据信息,帮助决策分析部门对地质灾害做出合理的决策分析,优化地质灾害防治手段,提高地质灾害应对效率,从宏观、微观,各角度了解库区保护对象,财产损失等问题。本文的具体研究内容包括如下几方面:
第一,对数据仓库建设的基本原理、ETL技术的一般过程进行了介绍,并对整个ETL过程中的关键技术,包括数据抽取、转换、清洗和加载等进行了深入分析。
第二,对三峡库区地质灾害防治数据仓库ETL的需求进行了研究与分析。一方面满足用户的需求,用户要求ETL方案清晰易懂、且能够尽可能快的对数据进行批量处理;另一方面,满足系统功能的需求,包括整体的功能需求、数据需求、作业调度需求、数据转换需求等。
第三,对三峡库区地质灾害防治数据仓库ETL进行了总体设计,逐步形成了一套适用于三峡库区地质灾害防治数据仓库ETL的解决方案。完成的工作有:(1)分析了三峡库区地质灾害防治数据范围,包括空间数据、专业属性数据、管理数据几大类,本文研究的ETL方案主要针对专业属性数据和管理数据;(2)按主题组织数据,确定了数据的维、粒度、度量等;(3)完成了库区地质灾害防治数据仓库的ETL过程分析;(4)对地质灾害防治数据的抽取、转换、清洗、上载等关键技术策略进行了研究;(5)元数据建设,主要对数据ETL过程、数据映射、目标仓库方面的元数据进行了分析。
第四,本文对三峡库区监测预报分析主题相关的数据进行了分析,选用Oracle公司的ETL产品,即Oracle Warehouse Builder10g Release2(OWB10.2),完成了监测预报分析数据的抽取、清洗、转换、上载,实现了地质灾害防治数据仓库的ETL过程,并用OLAP分析工具,对上载成功的数据进行分析,以检验ETL方案的效果。
地质灾害防治数据具有多源、多类、多量、多维、多尺度、多时态和多主题特征,它的采集、存储、管理、处理、集成和应用极为复杂。本文的主要创新点在于结合三峡库区地质灾害防治数据特征,研究并制定了适合三峡库区地质灾害防治数据仓库的ETL方案和策略,并用OWB进行了实现,为库区决策人员提供帮助。
本文分六章进行论述,具体的组织结构如下:
1)、第一章详细阐述了选题的来源、背景及选题意义,并对国内外数据仓库及ETL技术的研究现状进行了调研。
2)、第二章对数据仓库建设的基本原理、ETL技术的一般过程进行了介绍,并对整个ETL过程中的关键技术包括数据的抽取、转换、清洗和加载等进行了具体阐述。
3)、第三章对三峡库区地质灾害防治数据仓库ETL的需求进行了分析。
4)、第四章结合三峡库区地质灾害的防治数据特点,对ETL技术进行了深入研究,提出了适用于地质灾害防治数据仓库ETL的解决方案。
5)、第五章对三峡库区监测预报分析主体相关的数据进行了分析,选用Oracle公司的ETL产品OWB,实现了地质灾害防治数据仓库的ETL过程,并对上载成功的数据进行了展现。
6)、第六章总结全文工作。