论文部分内容阅读
本文研究数据挖掘中的谱聚类算法,基于最优化理论,创造性地提出序贯矩阵压缩算法,在保证谱聚类精确度的前提下,该算法能够很好的节省运算量,将谱聚类方法真正实用化,全文共分为以下四章。
第一章:介绍聚类算法的应用背景以及相关研究现状。
第二章:介绍谱聚类算法的基础知识,这是我们所提出的序贯矩阵压缩算法存在的前提。
第三章:给出序贯矩阵压缩的谱聚类算法。将谱聚类问题抽象到最优化模型,在使用共轭梯度法和Lanczos迭代方法求解特征向量问题的基础上,将数掘元素进行聚合,这样不但保证了特征向量的准确性,而且大大节省了迭代步数。从而克服了谱聚类算法最大的弱点。我们首先从Ratio Cut和Normalize Cut两个方面入手,给出了两方面的序贯矩阵压缩算法。然后给出误差估计,这个估计说明我们的算法基本上能够保证达到共轭梯度法或者Lanczos算法的精度,但是能够大大的节省运算量。
第四章:本章主要给出数值实验来验证我们的算法。首先用模拟试验来演示我们的算法,然后在人工数据集上进行试验,最后在真实的大数据集上和其他算法进行比较。
第五章:给出本文主要研究成果,存在的问题以及下一步需要研究的课题。