论文部分内容阅读
随着数据挖掘技术的进步以及Hadoop和Spark等大数据分析平台的流行,分析大规模数据集的难度显著降低,而且数据质量相比以往明显提高,在这样的背景下海量数据中的极少数离群值不再鸡肋。与发现数据的普遍模式相比,异常数据模式可能更有价值,例如警察局更关心那些发生犯罪或者可能发生犯罪的离群点,而且利用离群值检测帮助银行业侦测欺诈交易,或者帮助药厂发现药物异常,这些应用有着很高的社会价值却往往被忽略。利用传统的离群值侦测技术结合新兴的数据挖掘技术去探索离群值的隐含模式具有很高的研究价值。基于聚类的离群值挖掘算法是目前最主流的离群值挖掘算法,但是该算法有两点难点,首先算法不仅在性能上受到相关聚类算法的限制,也具有较高的计算复杂度,另一个难点是定义离群值的尺度,因为没有一个弹性的度量标准供使用者考量。为解决上述弊端,国外学者提出利用离群因子展示对象的离群程度的方法,但是LOF或者LDOF离群因子虽然具有高稳定性和高准确性等优点,也具有计算复杂度高的缺点。本文基于将待查数据集剪枝优化LDOF算法的思想,提出基于聚类特征树将待查数据集剪枝优化LDOF算法的CFLDOF算法。本文利用实验证实CFLDOF算法不仅优化LDOF算法的计算时间,也有着近似于LDOF算法的准确率。此外,本文基于算法并行化思想对CFLDOF算法改进,并给出在Spark平台上实现CFLDOF算法的伪代码。本文主要工作如下:1)提出利用聚类特征树剪枝待查数据集从而优化LDOF算法的思想,并基于此思想提出CFLDOF算法;2)进行对比实验验证CFLDOF算法的不仅在时间复杂度上优化LDOF算法,也有着近似于LDOF算法的准确性;3)提出CFLDOF算法的并行化设计,并给出基于Spark平台实现CFLDOF算法的伪代码;结合本文工作,可以得到的结论是:CFLDOF算法可以优化LDOF算法的计算复杂度,并有着与LDOF算法相近的准确率,利用聚类特征树剪枝待查数据集对LDOF算法的优化是可行的。