论文部分内容阅读
数据挖掘又称数据库中的知识发现,是指从大型数据集中发现有趣的、有用的且预先未知的知识的过程。数据挖掘是数据库研究最活跃的领域之一,通过数据挖掘可以从大型数据集中提取可信、新颖、有效并易于理解的知识、规律或高层信息,这给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅猛发展,作为其重要组成部分,聚类分析和边界模式检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。而聚类和边界模式检测算法的研究也已经成为数据挖掘研究领域中非常活跃的一个研究课题。
本文提出了参数自动化的基于网格密度的高精度的聚类算法。针对网格聚类算法的聚类结果对用户输入参数敏感这一问题,本文提出了一种参数自动化的处理方法;另外,本文还在结合了基于密度聚类算法和网格聚类算法的优点的基础上,采用计算低密度单元中的点到相邻高密度单元重心的欧几里德距离的方法来处理边界点,这种处理网格聚类边界的方法,克服了由于网格单元内数据分布不均匀而造成聚类结果不准确的缺点,可以准确衡量出数据点的分布稠密程度趋势,从而达到使聚类结果更加准确的目的。同时,本文还在该算法的基础上提出了增量数据挖掘算法,能够对动态的数据库进行处理。
实验结果表明:该算法可以有效的检测出任意形状、不同大小和不同密度聚类的边界点,并能有效的消除噪声。并且在该算法基础上提出的增量聚类算法在不影响聚类结果的前提下可以较高效率的处理数据的增量问题。