论文部分内容阅读
数据挖掘(Data Mining,简称DM)或称为数据库中的知识发现,是为了发现事先未知的规则和联系而对大量数据进行选择、探索和建模的过程。数据挖掘是一个年轻而又欣欣向荣的研究领域,随着研究的不断深入,出现了许多用于挖掘不同类型数据的算法和技术。常用的数据挖掘方法包括描述、分类、关联规则、聚类、孤立点检测、模式匹配、数据可视化等。 在前人研究的基础上,对数据挖掘领域中的聚类分析方法进行了重点研究。通过对数据集进行聚类,所形成的簇可以对未来发展规划提供理论支持。指明了聚类的未来发展方向和面临的挑战,对聚类中的常用方法如划分方法、层次方法、基于密度的方法、基于网格的方法及基于模型的方法等进行了详细的论述。另外,对K-均值聚类算法进行了一些有益的改进,使其在处理稀疏数据集时效率更高。 在当前的数据挖掘领域中。大规模数据集越来越普遍,它们大多具有很高的维数和海量的数据记录。现有的数据挖掘方法大多运行在低维、小数据集上,针对这些日益增多的大型、多维数据集来说,这些方法的处理结果不很理想,并且在处理大数据集时对系统的需求也比较高。 由于大规模数据集的内在复杂性,因此在应用特定的数据挖掘方法(如聚类)对给定的数据集进行处理时,往往不是在整个数据集上进行处理。而是把抽样技术引入数据挖掘过程中,先抽取出一个样本。然后在样本数据集上进行处理,最后根据处理结果来推测总体数据集的情况。其中,用的较多的抽样方法是简单随机抽样,这种方法简单易行,所以应用比较广泛。但是这种抽样方法也经常被人们抱怨,由于现实世界中的数据集大多是非对称、不均匀分布的,而简单随机抽样则是以相同的抽样概率来抽取数据集中的每一点。因此,经过简单随机抽样后得到的样本数据集不能很好地反映原始数据集的总体特性。在极端的情况下,如果随机抽样选择的代表点都不是原始数据集中包含重要信息的数据对象,那么样本数据集根本无法反映出原始数据集的特征。鉴于这种原因,引入了偏差抽样的概念。 可以按照数据集的密度应用偏差抽样来加速常规数据挖掘任务的运行,本文对此进行了研究。偏差抽样克服了简单随机抽样的局限,可以在相同概率的情况下,使用较小的样本来满足具体数据挖掘任务的要求。但是,由于不知道数据点的优先级,所以没有明确的方法对数据集中的点进行偏差抽样。研究发现,数据集的概率密度函数可以提供足够的信息来定位样本中的点,但是这需要一个密度估算函数,通过这个函数可以把样本密度映射为抽样概率。根据数据密度进行的偏差抽样能够使用任何密度估算函数,并且在一些文献中也介绍了如何使用不同方法来发现多维数据集的密度估算函数的方法。从理论上来说,偏差抽样技术可以使用任何密度估算方法。由于核密度估算方法不利用有关数据分布的先验知识,并且通过一次数据扫描就可以获取一个核密度估算函数,因此,核密度估算函数是一个较好的选择。核密度估算技术是基于统计方法尤其是基于