论文部分内容阅读
数据挖掘就是从大量的数据集中抽取和精炼新的模式或知识的过程,目前已经成为一个重要的研究课题.该文以提高数据挖掘的效率为目的,以微机机群为平台,以油田地质数据库为背景开展研究工作,主要包括以下六个方面的内容.1.提出了两种处理缺损数据的方法.一种是基于Bayesian网络的缺损数据处理方法;另一种是基于数据库先验知识的缺损数据处理方法,它充分利用数据库的冗余信息来推断缺损数据.2.提出了两种聚类新算法.一种是进化聚类学习方法,蚁群算法是解决离散优化问题的一种重要算法,该文首次将其应用到聚类学习中,提出了一种基于蚁群算法的进化聚类学习方法,取得了很好的效果;另一种是基于代表点的聚类方法,对于一些非球形分布的数据集,用普通的方法聚类的效果不理想,利用该方法可以首先根据领域知识选取一些代表点,然后再进行聚类学习,实验效果较好.3.提出了两种关联规则挖掘算法.一种是基于概念格的关联规则挖掘方法,将概念格的方法应用到关联规则挖掘中来,首先建立概念格的Hasse图,然后利用Hasse图的节点进行关联规则挖掘;另一种是基于微机机群平台的挖掘关联规则的并行方法,我们发现矩阵中的上三角矩阵具有良好的性质,将该性质运用到关联规则的挖掘中来可以大大提高挖掘效率.4.提出了一种基于超图理论的离群数据挖掘方法.算法首先建立了超图模型,然后利用超图的分割算法寻找频繁超边,根据超边上权重的大小来检测离群点.5.提出了离群数据再挖掘的概念和算法.离群数据一般可以分为三种情况:一是错误,二是正常的偏离,三是含有一定信息量的数据.其中第三种情况的数据是我们感兴趣的.该文提出了在离群数据集中进行再挖掘的概念,并给出了一种基于频繁属性子空间的再挖掘算法.6.提出了一种基于Multi-Agent理论的智能数据挖掘体系结构.仅仅从改进算法和提高硬件速度的角度来提高数据挖掘的效率,已经远远不能适应数据量日益增长的需要,因此需要新的理念来指导数据挖掘.