论文部分内容阅读
挖掘海量数据,从中发现有用的信息与知识是当前数据挖掘研究领域面临的重大挑战。到目前为止,海量数据挖掘的主要解决策略包括数据约简和数据降维等,其中,基于统计学中的抽样方法是数据约简方法之一。简单随机抽样方法虽然简单易行,但由于许多数据集含有噪声、非对称、不均匀分布,因此不能正确反映原始数据的总体特性。密度偏差抽样算法通过把数据集密度映射为数据点的抽样概率,调整其抽样概率来达到偏差抽样的目的。
本文在 C.Palmer 的密度偏差抽样算法的基础上,提出了改进的基于网格的密度偏差抽样算法。该算法利用网格结构映射存储数据,经实验证明可以抽取得到高质量的样本,更好的保持了原始数据集的分布特征,并且具有良好的抗噪声能力,因此该算法在实现数据约简的过程中是可行的。
本文针对密度偏差抽样在海量数据挖掘中的聚类和关联规则领域的应用进行了探讨。前者是在密度偏差抽样的样本上进行聚类分析;后者将密度偏差抽样算法与经典 Apriori 算法融合,提出了基于密度偏差抽样的加权挖掘频繁项集的算法。在聚类实验过程中,首先通过基于网格的密度偏差抽样和简单随机抽样方法获得样本,然后在各自的样本上进行聚类的正确识别对比测试,实验证明本文的方法在较低抽样概率的情况下获得了较高的正确识别率。同时,在经实验测试后也验证了基于密度偏差抽样的加权挖掘频繁项集的算法在关联规则挖掘中的高效性。