论文部分内容阅读
本文是对数据挖掘中的一个问题——离群点检测的研究,首先分析了现有离群数据挖掘方法在发现低维数据空间和小规模数据集中离群点的弊端,然后给出了两种基于高维大数据集的离群点检测方法。第一种是基于有权重超图模型的离群点检测方法。方法中使用了基于有权重支持度框架的关联规则挖掘方法,将数据集映射成超图模型,通过定义超图中的基本概念和离群点检测标准发现数据集中的离群数据。与其他方法不同,本方法能够结合用户的意愿和实际应用挖掘出更有意义的离群点。第二种是基于数据模式聚类的离群点检测方法。方法中定义了事务包含模式的含义,并给出了基于超图分割的模式聚类方法,然后使用基于聚类的局部离群因子的定义,找出数据集中满足用户要求的离群点。本方法使用了适合应用在高维空间中的聚类方法,发现的是基于聚类的局部离群点,因此更具有效性和合理性。