论文部分内容阅读
作为数据挖掘中的一项重要技术,聚类分析具有广泛的应用领域。同时,聚类也是数据挖掘领域中一个相对比较困难的问题,而高维数据集的聚类算法己成为当前研究的热点。由于“维度困扰”的存在,目前绝大多数算法在高维数据空间的情况下都无法得到理想的效果。此外,高维数据中含有的大量的随机噪声也会带来额外的效率问题。目前,子空间聚类算法是对大规模、高维数据集聚类的有效方法之一。本论文的研究工作着重分析了传统聚类算法在处理大规模、高维数据集的困难和问题,比较了高维数据集聚类方法的优劣,从理论上论证了子空间聚类算法在处理大规模、高维数据集的优势。在此基础上,进一步对已有的子空间聚类算法ENCLUS进行了分析,指出ENCLUS算法存在的若干不足,即:ENCLUS在划分网格时没有或者很少考虑数据的分布,而且可能稀疏网格中的数据点会错误的作为孤立点处理,为此,我们在论文研究工作中提出了优化的基于网格的聚类算法(OGBS),通过对网格进行二分以得到平滑的类边界,同时更好的防止了数据点的误分。我们将此算法应用于面向广西区土地分类项目中,并结合高光谱遥感数据的空间连续性的特点,利用数据点的空间相邻性进行孤立点检测,得到了更加精准的聚类结果,为更好的利用广西区的土地、环境和气候资源提供了更好的现实依据。本文从理论和实验两方面证明了在处理大规模、高维数据集时,算法OGBS比算法ENCLUS在聚类的精度上有了很大的提高,可以得到平滑的边界,在时间效率上没有太大的变化。