论文部分内容阅读
地学数据(Geo-Spatial Data),或称为地学空间数据、地球空间数据,就是指表达着深刻地质内涵的与空间位置信息有关的定量测量数据、定性描述及图形图像数据。数据处理目的就是要利用一切可行的方法来获取数据中所蕴涵的信息,并以某种可以理解的数据形式表现出来,称之为信息提取。而地学数据处理或地学信息提取(Geo-Information Extraction)是研究怎样管理和处理多来源多数据格式的地学数据,并为地学数据分析及地学研究提供数据支持,在矿产资源研究工作中,可以提供评价或发现所期望的目标(即地质体或成矿远景区)的定量评价信息。随着数据量的不断增大,以数据的统计分析和知识归纳演绎为主的信息提取技术在各个领域取得了快速的发展,研究者们除了使用数据统计分析外,还采用相似类比推理、地质异常控矿理论(赵鹏大)以及地质条件组合控矿理论等进行地学信息提取。数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,简称KDD),其目的就是从大量的、不完全的、有噪音的、模糊的数据中提取出隐含在其中的人们事先不知道的但是潜在有用的可信、新颖并能被人理解的信息和知识,它是一种高级的数据处理过程。在地质数学特征研究中,随着地学数据资料不断增加,利用数学方法来定量化处理地学数据的手段虽然在进行地学规律的研究上起了很大的作用,然而它对大量不同比例、不同精度的新数据的出现却不能及时地进行模式发现和模型计算,因此对地学数据的处理提出了新的要求,希望从大量的多源地学数据中发现地质规律,计算出特定地区的定量地学模型,为地质研究建立新的模式。为了充分利用数据带来的信息,地质学专家提出了地学数据仓库建设、多源地学数据集成等技术手段来为该过程提供数据基础,同时也引出了从数据库/数据仓库中获取数据的研究,并使用数据驱动的主动特征来满足在数据变化时,对模型参数的重新计算问题,让数据挖掘的模式提取过程变成自动智能地激活,通过数据挖掘中的各种算法的计算可对地质问题进行数字化信息挖掘处理,为地学数据的管理和处理提供技术上的支持,并形成地学决策支持系统,为地学问题的客观智能地处理奠定基础。它的分析方法和应用结果,也将为全球变化、区域可持续发展和自然资源的有效评价提供决策支持。本文在这样的研究思路指导下主要完成了对数据挖掘数据库引擎的设计与实现工作,其内容包括如下:1、对数据挖掘数据库引擎进行了设计系统地分析与设计了一个地学数据挖掘的数据驱动引擎,该设计是一个以数据驱动为核心的三层软件结构系统,即数据层、数据操作层以及数据处理层,各层分别用来完成特定的逻辑功能,并把所有的功能特点在操作层的数据工作平台中体现出来。2、对基于大型数据库访问的数据获取、查询技术进行了研究。由于数据挖掘数据库引擎的研究定位于地学数据的处理,因此数据的获取与访问是该研究的首要任务。为了适合后续的开发,在设计中主要研究了对于Oracle和SQL Server<WP=7>的数据访问研究。数据访问技术选取了目前微软最近推出的统一数据获取技术(UDA),该技术解决了对所有数据源的数据访问问题,而且还可以对任何用户自定义编写的数据源OLE DB数据提供者,使得数据消费者(客户端程序)可以通过UDA对该数据提供者进行数据的访问,这样就完全解决了多种数据源数据的访问与获取问题。在数据的查询获取上,使用了基于OLE DB的高级接口ADO来解析SQL语句,使得数据的查询与获取变的非常灵活实用。3、基于外部扩展存储过程的数据驱动机制的研究。扩展存储过程是指在数据库系统中的可以调用的一种Win32动态库函数,它为数据驱动的实现提供了一个良好的数据接口功能。而作为一种特殊存储过程的数据库触发器为数据的变化提供了良好的操作事件触发功能。论文根据数据库的这两种特点,把数据的变化写入到文件中,并由客户挖掘程序进行监视,形成了数据库操作事件→触发器→扩张存储过程→文件读写→挖掘程序模块 驱动的一系列执行机制。4、对基于OpenGL的数据可视化进行了研究。数据可视化为数据的展现提供了一个完整直观的图形视图,论文通过对 OpenGL图形操作库进行了程序开发,并把典型的Surfer Grid文本及二进制数据进行了读取显示。该模块的研究可以对数据进行图形化的操作,为系统提供了良好的图形显示功能。5、对数据驱动记录文件进行了设计工作在数据驱动过程中,使用了*.ini型文件形式进行数据的变化记录,该文件主要是通过设定[section]作为主键,其下的各个key作为数据变化的描述,key所对应的值作为实际数据的变化特征来工作,这样使得数据记录文件的大小不增加,而是通过改变特定section下的特定键值来达到记录的效果,这好似一个简单的数据库表。6、在Windows 2000环境下,利用Visual C++开发工具,基于SQL Server 2000数据库系统进行了整个设计的实现工作。论文实现了一个名为DAVS 的应用程序。对源文件进行分析,软件工作量如下:DAVS主程序共计219个程序文件,有效的代码行数为60196行,其中包括注释行11045;同时在扩展存储过程动态