论文部分内容阅读
大数据时代,数据引擎已成为组织服务创新、经济社会发展和国家治理能力现代化的核心驱动力,构建大数据驱动的政务新平台,成为电子政务发展的重要内容。基于关系型数据库系统的传统数据仓库在存储、加工及分析规模庞大、种类繁多的数据方面存在局限性,电子政务领域数据归集遇到数据质量问题,导致数据可信度差,影响数据共享和大数据辅助决策分析,亟需通过大数据仓库数据建模实现对数据有效管理和治理。数据集成于大数据仓库,针对大数据体量庞大的特点,在多数场景下不可能每次都采集全部数据,海量数据增量采集被广泛关注。本文从大数据仓库的数据模型分层、数据治理模型和数据增量采集三个方面,研究探讨了大数据仓库数据模型及在电子政务中的应用。第一,依据Kimball提出的数据仓库维度建模理论,基于Hadoop的Hive数据仓库,给出大数据仓库数据模型的分层架构。架构整体分为数据缓冲层(STG)、操作数据层(ODS)、公共数据层(PDW)和数据应用层(ADM)。结合数据分层和命名规则,设计实现大数据仓库分层的数据模型,在电子政务中应用大数据仓库分层架构,发挥大数据辅助科学决策和精准施策。第二,针对政府部门归集数据遇到的数据质量低劣问题,参照数据治理框架中的数据治理过程和数据模型分层架构,研究探讨了数据质量治理模型。模型从数据质量规则和数据质量反馈闭环两方面,引导源头数据从内容格式、数据模型和数据标准上优化改进,满足数据质量提升的需求。数据质量规则分为:数据清洗转换规则和数据质量稽核规则。数据质量反馈闭环,采用PDCA质量管理方法,将质量问题进行溯源。第三,研究数据集成全量和增量同步技术,提出非侵入式变化数据捕获方法NICDC。综合时间戳和全表比对的思想,设计时间和空间两种维度计算方法,从数据行和数据列对增量数据捕获能力进行提升。在实践中,使用NICDC方法无需对业务系统进行升级改造,能够快速捕获增量数据,提高大数据仓库集成数据的效率和增量数据的准确性。