论文部分内容阅读
数据的可访问性、便捷性和可靠性是十分关键的,任何形式的干净数据都已成为当今社会中人类的新财富。在许多领域里,由于数据本身大容量和高速传输的特点所带来的巨大挑战,维护高质量数据的能力已经变得十分重要。数据可以给各个行业的企业提供对其企业活动的价值分析进而帮助企业激发其最佳潜力,并在与对手竞争中获得更大的优势。因此企业现在大力投资研发数据挖掘技能,期待从不同类型数据中发现隐性的数据价值。离群点检测是一项非常重要的数据挖掘任务,其目的是检测偏离正常数据预期模式的对象,因为离群点有极大可能影响数据分析结果。离群点检测是一个在不同领域、不同数据类型中有着广泛应用的重要问题。离群点有许多潜在的来源,在大数据集中识别它们需要有效的方法。随着数字时代的发展,离群点的检测变得越来越具有挑战性。例如,随着传统批处理数据的革命,我们现在看到大量的数据以高速、动态的方式连续生成。这些类型的数据可能包含冗余信息,并且通常会影响离群点检测方法的效率和总体性能。多年来,为解决离群点检测带来的挑战,使用不同算法的方法和技术被提出。一些常见的困难与输入数据的性质、离群值类型、数据标签、准确性以及CPU时间和内存消耗方面的计算复杂性有关。研究人员继续寻找更好的解决方案来解决这些挑战,并且考虑检测离群点的有效性。为了实现这一目标,本文针对传统方法存在的缺陷和局限性,提出了在不同数据集中检测离群点的方法,并提出了在批处理和数据流中处理离群点的有效方法。本文进行了广泛的实验,以评估所提出的技术相对于其他先前方法的性能,并讨论了相应实验结果。本文共分五章,前两章为研究的基础。第一章介绍了本研究的目的,及离群点检测的一些基本概念包括定义、成因和应用领域。第二章对近二十年来离群点检测方法的研究进展进行了全面而有组织的回顾。我们将这些方法从不同的离群点检测技术(如距离、聚类、密度、集成和基于学习的方法)中分为不同的技术。在每一类中,我们都介绍了一些最新的离群点检测方法,并对它们的性能进行了详细的讨论。此外,我们描述了它们的优缺点和挑战,为研究人员提供每种技术的简明概述,推荐方案和可能的研究方向。在本文的第三部分中,针对不同类型的离群点检测方法,我们提出了一种基于统计的方法来解决离群点的检测问题,并给出了最优的解决方案,使离群点检测的思想能够更有效地提高检测率,同时使计算代价最小化。为了实现这一目标,我们提出了用于参数化方法的高斯混合模型(GMMOD)和用于非参数方法的核密度估计(KDEOD)算法第四和第五部分扩展了在不同数据类型的数据流中检测离群点的目标。第四部分提出了一种基于距离的方法。提出了一种基于最小探测的微簇(MCMP)混合方法。为有效降低距离异常检测的计算代价,提出了一种新的基于距离的异常检测技术。提出的MCMP技术包括两种方法。首先,采用微聚类的方法来减少范围查询搜索。然后,为了处理微簇外的对象,我们提出了区分强内联和平凡内联的概念。第五部分提出了一种基于聚类的方法。提出了一种基于聚类的数据流离群点检测方法(CLODS),该方法首先应用微聚类技术对密集数据点进行聚类,然后根据数据流的相关性对窗口内的数据点进行有效的处理,从而检测出进化数据流中的离群点他们各自的地位或地位。这两种方法都提高了计算速度和内存消耗,同时保持了异常检测的准确性。在大多数数据集中,它们在CPU时间和内存消耗方面都优于最新的方法。最后一部分中,本文针对离群点检测方法的未来发展,为研究者提供了一条清晰的思路去面对一些开放性的研究问题和挑战。