论文部分内容阅读
现代社会随着信息化水平的逐步提升,人们医疗保险消费模式发生了极大的转变,人们不再通过现金消费医疗服务及药品,而是通过电子化方式进行,即实时联机OLTP方式。消费产生的历史数据不断累积,变得越来越庞大,人们通过备份数据或删除一部分历史消费数据来解决对系统资源的占用。人们对这些历史消费数据的利用几乎为零,通常只是利用数据进行排错。通过对这些消费数据进行ETL进而建立数据仓库进行OLAP分析及数据挖掘,可以提炼出促进人类社会健康发展的信息。论文首先对广东省医疗保险消费数据产生的上下文进行介绍,并对其进行数据分析及数据挖掘的可行性分析,接着对数据仓库及数据挖掘技术进行简单介绍。论文依据软件工程方法,对广东省医疗保险消费历史数据进行需求分析,并对其进行概念模型设计、逻辑模型设计和物理模型设计,接着对数据进行ETL过程,包括数据抽取、转换及加载到数据仓库。最后对广东省医疗保险消费历史数据进行数据分析及数据挖掘的过程。产生主题进行数据分析及产生图表分析消费特征、分布及趋势。采用分类算法C&RT对数据抽样并进行数据挖掘。