论文部分内容阅读
随着计算机技术特别是数据库技术的迅猛发展,以及人类活动范围的扩展、生活节奏的加快,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。面对这些极度膨胀的数据,人们受到“信息爆炸”和“数据过剩”(Data Glut)的巨大压力。这些海量数据如果不能有效利用起来,将只会成为“数据垃圾”。对人类社会进步起到巨大作用的是知识。数据挖掘作为一种融合了人工智能、数据库和数理统计等学科特点的新兴技术,就是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。 济南市环境保护监测站自1999年开始进行了城市空气质量自动监测工作,积累了大量的空气质量监测历史数据,这些数据对整个城市环境空气质量进行分析和预测具有十分重要的意义,随着空气质量实时监测系统和重点污染源实时在线监测系统的建立,监测数据的增长更加迅速。传统的基于数据库模型的数据处理方法和手段已经不能满足对海量数据的管理和利用,急需新的技术支持,来实现对现有数据的分析和利用。 论文讨论了一个环境空气质量数据挖掘系统的设计和实现的相关技术,该系统是一个基于济南市环境保护监测站现有环境空气质量监测管理系统基础上的数据挖掘系统,初步满足了对济南市环境空气质量分析的要求,可以为济南市环境监测与保护管理部门的决策提供辅助手段。 本文首先给出了数据挖掘的基本概念,关键技术,挖掘任务,挖掘方法,基本过程以及发展状况;然后介绍了通过DCOM(分布式组件对象模型)技术实现了一种基于三层客户机/服务器结构的设计方案;建立了环境空气监测数据仓库,并使用神经网络和支持向量机两种数据挖掘方法对环境空气质量进行挖掘,并最终以数据挖掘原型系统的形式加以实现。 本文所做的主要工作有以下几个方面: ● 描述了DCOM实现三层客户机/服务器结构的设计方案。 ● 对大量历史环境空气监测数据建立数据仓库,并利用OLAP工具进行数据分析。