论文部分内容阅读
数据挖掘是在大量的数据中提取出人们可理解的、存在潜价值的知识、模式、规则或规律的过程。离群检测与聚类分析是数据挖掘领域中研究非常热门的两个研究课题。这两个课题相关的概念、技术以及应用都已发展得比较成熟。但随着现实生活、网络等产生的数据量、数据维度、数据种类等剧增,导致数据复杂度的不断提高,使得离群检测分析和聚类分析存在的一些未能解决的难题浮出水面,从而对离群检测和聚类分析提出了新的挑战。本课题希望通过对离群检测和聚类分析的基础理论和算法的研究,从而达到对离群检测和聚类分析进行丰富发展的目的,同时解决离群检测和聚类分析已有研究和应用中存在的一些难题。本论文将自然邻居的概念引入到离群点检测中,利用自然邻居的无参特性提出了无需参数k值的离群点检测算法,解决了现有离群点检测算法需要参数k并对k值敏感的问题。离群点检测分析是数据挖掘中排除潜在威胁或发现新机制的非常重要的手段。在实际应用中,离群点检测分析已被应用到多个领域,例如欺诈检测等。因此,论文对离群点检测分析现状进行研究分析,基于距离和基于密度的离群点检测算法是最常用的离群检测算法,然而和大多数离群点检测算法一样,都需要设置邻域参数k的值。基于距离的离群点检测算法需要参数k值来计算k距离,基于密度的离群点检测算法需要参数k值来计算每个数据对象的密度。如若k值设置得不合适就有可能导致离群点检测失败。实验结果不仅证明了被提出算法的有效性,同时也说明了自然邻居得到的自然值,不但适用于本文提出的算法,还适用于LOF和INS算法。本文提出了无需参数Top-n的离群簇检测算法解决了离群簇检测难和所需参数多的问题。离群检测包括离群点检测和离群簇检测。离群簇检测出来的结果包括了数据集中离群点之间的簇结构等关联信息,更方便研究者对其做更进一步的研究。所以,相对离群点检测而言,离群簇检测更具有实用性,更有发展前景。现有离群簇检测算法基本都是基于聚类的离群检测算法,而且没有专门服务于离群簇检测的聚类算法。且现有基于聚类的离群簇检测算法存在着参数多难以设置等问题。首先基于互为邻域图提出了专门用于离群簇检测且仅需一个参数的粗糙聚类算法,从而解决了用于离群簇检测的聚类算法参数多的问题。然后基于上述提出的粗糙聚类算法得到的粗糙聚类结果计算每个簇的相对簇离群度,并构造出离群簇决策图;最后通过离群簇决策图检测出数据集中的离群簇,所以离群簇检测时无需参数Top-n。通过在人工数据集和真实数据集上的实验验证了提出算法的有效性,同时证明了此算法求得的数据离群率非常接近数据集的真实离群率。本论文提出了基于准核心点的复杂流形聚类算法解决了复杂流形聚类难的问题,同时算法引入了新的密度衡量标准,解决了稀疏密度簇难发现的问题,并且该算法对所需参数具有鲁棒性。聚类分析是数据挖掘中发现数据集中数据分布规律,对数据进行归纳分析的重要手段。论文对聚类分析的现状进行了概括分析,并指出了现有聚类算法对参数敏感、对具有复杂流形数据聚类难等问题。同时,现有基于密度或基于中心等聚类算法对数据密度的衡量标准存在一个问题,那就是簇与簇之间密度较大,有可能导致稀疏类被当作离群点处理。首先,论文将离群检测中的密度衡量方法引入到聚类分析中,并提出了准聚类中心这一新的概念:准聚类中心密度大于其所有的k邻居或逆k邻居的密度;其次,通过从准聚类中心不断向稀疏区域扩散,对数据集进行初始聚类;最后,论文定义了簇与簇之间的相似性,通过合并相似性较大的簇得到最终聚类结果。论文通过对比实验验证了提出算法的有效性,同时证明了被提出算法对参数具有鲁棒性,且从理论上讲适用于任何流形分布的数据集。