论文部分内容阅读
随着计算机技术特别是数据库技术的迅猛发展,以及人类活动范围的扩展、生活节奏的加快,人们能以更快速、更容易、更廉价的方式获取和存储数据,这就使得数据及其信息量以指数方式增长。面对这些极度膨胀的数据,人们受到“信息爆炸”和“数据过剩”(Data Glut)的巨大压力。这些海量数据如果不能被有效利用,将会成为“数据垃圾”。数据挖掘作为一种融合了人工智能、数据库和数理统计等学科特点的新兴技术,就是从大量、复杂的数据中迅速获取新颖、有效的知识的过程。济南市环境保护监测站的城市空气质量自动监测工作,积累了大量的空气质量监测历史数据,这些数据对整个城市环境空气质量的分析和预测具有十分重要的意义。传统的数据挖掘技术和算法让决策者难以理解和使用,急需新的技术支持,来实现对现有数据的合理分析和利用。而可视化技术可以使数据和挖掘结果更容易理解,允许对结果进行比较和检验。可视化也可以用来指导数据挖掘算法,用来验证业务数据集的逻辑正确性。本文讨论了环境空气质量数据挖掘与可视化的相关理论和技术,在此基础上,结合济南市环境保护监测站现有环境空气质量监测管理系统,建立了城市环境空气质量数据挖掘与可视化的原型系统。本文首先给出了数据挖掘的基本概念,可视化的工具及相关技术;然后建立基于粗糙集和神经网络的环境空气质量预测模型,描述了如何应用粗糙集和B-P神经网络技术预测环境空气质量;将GIS专有方法和可视化技术相结合来处理空气质量预报数据,实现了预报数据的动态可视化:建立基于平行坐标的环境空气质量可视化聚类分析模型,实现了环境空气质量数据挖掘过程的可视化;最后实现了一个数据挖掘与可视化的原型系统,该原型系统是在Windows操作系统下,以Visual C++6.0作为应用平台,实现了数据预处理、基于粗糙集和神经网络的预测、预报数据的动态可视化、可视化聚类等功能。本文建立了城市环境空气质量的预测和评价的模型和方法,初步满足了对济南市环境空气质量分析的要求,可以为济南市环境监测与保护管理部门的决策提供辅助手段。系统的开发和研究具有一定的创新性,为建立具有国际先进水平的城市环境空气质量数据管理、分析和评价系统提供了基本条件和必要手段,为国内其它城市环境空气质量监控网络的建立和数据分析起到良好的示范作用。