论文部分内容阅读
随着医院信息系统应用的普及,在医院经营过程中,医院信息系统产生了大量的数据。经过多年累积,形成了以医院经营数据为核心的大数据,这些大数据蕴含着大量有助于医院经营管理的信息,其价值不容忽视。这些信息能够为医院相关部门制定经营管理制度、决策方案等提供有效的科学依据。因此,如何从这些大数据中提取有用信息已然成为医院信息化建设的重要内容。数据仓库技术是目前广泛应用的大数据分析处理技术,能够提供专业的数据处理和数据分析服务。随着数据仓库技术日趋成熟,基于数据仓库的各种应用技术也随之兴起。联机分析处理技术(OLAP)是数据仓库技术中一项重要的应用,它侧重于决策支持工作。OLAP能够支持复杂的数据分析,为用户提供直观易懂的查询结果。联机分析处理技术能够对数据仓库中的数据进行快速、稳定和交互性的存取,对数据采取多种观察形式,从不同角度分析数据,为管理决策人员提供有用的信息。目前企业信息系统运营所产生的数据正在指数增长,人们每天的生产活动都会产生大量数据,单个服务器已经无法负荷迎面而来的大数据。针对这种现象,研究者们提出了分布式并行处理的思想。Hadoop分布式平台是目前应用最为广泛的一种分布式处理技术,它是一个易于架构和使用的分布式平台。用户能够轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop具有高可靠型,高扩展性,高效性,以及高容错性等特点,目前它在web搜索、数据挖掘以及科学计算等大规模数据处理方面都有着广泛的应用。本文以医院经营数据为依托,深入研究了OLAP联机分析处理技术和Hadoop分布式技术,并将两种技术结合应用于医院经营数据分析系统之中。首先,文章深入研究了数据分析处理的相关技术,仔细分析了医院经营数据。然后,根据医院经营数据的实际情况,结合OLAP技术与Hadoop技术的技术特性,提出了OLAP优化技术。OLAP优化技术从维度成员层次结构关系出发,结合索引技术、缓存技术、并行处理等先进技术,实现了在节省数据存储空间的同时提高数据分析处理效率的目标。最后,将OLAP优化技术应用于医院经营数据联机分析处理系统之中,展示了基于Hadoop分布式平台的医院经营联机分析处理系统部分模块的数据查询分析结果。本文主要工作可分为以下几个方面:首先,深入研究Hadoop分布式技术和OLAP联机分析处理技术等大数据分析相关技术。第二,分析医院经营数据,根据系统需求中的相关要求,选择合适的数据分析技术。构建以医院经营为主题的数据仓库,将预存入数据仓库的数据经处理后存储入HDFS分布式文件系统中,使用Hive数据仓库工具进行管理。第三,根据医院经营数据的实际情况,研究得出OLAP优化技术,通过维度成员的层次关系,快速定位查询数据,提高系统查询效率,减少数据仓库存储空间。第四,搭建Hadoop分布式开发平台,确保分布式环境下各节点正常工作,集群中各节点能够无障碍通信,并且,构建基于Hadoop分布式平台医院经营数据仓库。最后,实现医院经营联机分析处理系统,将OLAP优化技术应用于系统之中,实现医院经营数据分析系统在数据仓库上的数据分析操作,并展示部分查询分析结果。