论文部分内容阅读
随着各种电子设备的不断进化和发展,我们已经迈入了大数据时代。人类生活中的数据通常产生于不同的数据源或者从不同的视角来描述,我们将此类数据称之为多视图数据。如何挖掘隐藏在各式各样多视图数据的信息已经成为数据挖掘领域和机器学习领域的一个热门的研究方向。然而,这些多视图数据通常具有?分复杂的数据结构,这就使得许多基于物理距离的聚类算法如K均值聚类算法等失去有效性。由于谱聚类算法在对各种复杂结构数据聚类时的优越性能,各种基于谱聚类的多视图聚类算法已经被成功得用于多视图聚类领域。但是,由于传统的基于谱聚类的算法通常都是先对由相似度图中导出的图拉普拉斯矩阵进行特征分解,然后在通过K均值聚类或者谱旋转从分解得到的特征向量中获得最终的聚类分配,这样一个特征分解和求解聚类分配矩阵相分离的方法可能导致聚类结果的不精确,使聚类结果与数据中隐含的真实信息有所偏离。而且由于特征分解步骤的较高时间复杂度,使得基于谱聚类的多视图聚类算法很难用来处理大规模数据。此外,许多基于谱聚类的多视图聚类算法都涉及一个对多个视图加权整合的过程,但是由于多视图数据通常结构复杂,可能包含一些噪声数据,所以这些加权多视图聚类算法的聚类效果可能会受到某些噪声视图的影响,得到较差的聚类结果。此外,由于多视图数据中往往包含相较于单视图数据更为丰富的信息,所以往往具有很大的数据规模。为了降低数据的规模,从而可以对这些多视图数据分析,很多对数据进行抽样的算法已经被提出。但是由于这些抽样办法通常不能考虑每个视图的重要性,可能会选择一些噪声数据作为抽样结果,导致对数据的后续分析不精确。基于上述提到的多视图聚类领域面临的一些问题,本文主要进行如下工作:1.针对由于传统谱聚类的多视图聚类算法特征分解和求解聚类分配过程相互分离导致的聚类结果与实际的数据结构偏离的问题,本文提出了一个直接优化目标函数的聚类模型,该模型可以不用对图拉普拉斯矩阵进行特征分解,而是通过一个迭代的过程直接对模型进行优化,不仅可以避免特征分解过程与聚类求解过程导致的结果不精确问题,还可以通过避免对拉普拉斯矩阵的特征分解从而降低计算复杂度。2.针对现有的对多个视图进行加权的算法容易受到噪声视图影响的问题,本文提出一个自动对多视图数据进行加权的模型,并引入一个视图权重调整参数,通过调整视图的权重分布,使重要视图具有更大的权重,噪声视图具有更小的视图权重,降低多视图数据中噪声数据对聚类结果的影响。3.为了能够对大规模多视图数据进行聚类分析,本文提出一个新的多视图数据的抽样方法,该抽样算法可以自动识别不同视图的权重信息,从而避免因将噪声数据选择为代表点造成的后续聚类结果不精确等问题。