论文部分内容阅读
随着信息获取和存储技术的不断发展,实际应用中产生的数据集不仅在样本容量上越来越庞大,特征维数也在急剧增加,导致数据集的结构和属性更加复杂且多样化。在计算机视觉、图像处理、多媒体和模式识别等现代研究和应用中,需要对大规模的高维数据进行处理和理解,而对高维数据的聚类分析是当前数据挖掘研究领域中需要攻克的难点。通常,高维数据中样本所属的簇或类别一般位于对应的低维结构附近。子空间聚类因其揭示了数据潜在的嵌入结构而被广泛用于高维数据的聚类信息挖掘。基于表示关联图的谱聚类模型是该领域的热门方法之一,在实际应用中表现出了优良的性能。高维数据中包含的无效、冗余和噪声特征极大降低了学习算法的性能和效率。因此,设计一系列性能好、效率高并适应特定类型数据的子空间聚类算法具有重要的研究价值和应用前景。本文研究了无监督特征选择和表示型子空间聚类系列算法,主要工作包含以下4个方面:(1)针对高维特征数据中存在的非相关特征干扰学习和无效计算问题,将无监督特征选择算法嵌入表示型子空间聚类模型中,采用对样本重构能力的贡献度衡量特征的相关性和重要性。同时,使用权值因子对相关特征进行贡献度分析,进一步提高特征选择结果的准确性和数据表示机制的鲁棒性。(2)根据组效应思想,在表示系数约束项中引入度量样本欧氏距离的相似性矩阵,进一步保留输入数据的空间邻域特性。结合加权特征优选策略,提出一种融合特征选择的光滑表示聚类模型。采用交替方向乘子法对模型进行求解,保证单变量解的全局最优性和目标函数的整体收敛性。在人工合成数据和经典数据集上的实验验证了所提聚类算法具有良好的应用效果。(3)为有效地解决现实生活中广泛存在的时序数据聚类问题,将包含样本连续关系的拉普拉斯矩阵应用到组效应正则项中,促使表示系数有效学习近邻数据点的连续信息。进一步,使用指数方差度量方式定义时序相似图,刻画局部邻域的细粒度相似属性,设计一种更为平滑的时序数据表示模型。(4)鉴于稀疏低秩表示模型无法有效形成块对角结构的表示系数矩阵,对表示系数构建的关联矩阵施加一种松弛的软块对角约束,不仅直接提高了谱聚类的分割准确度,而且使得优化过程更加灵活。将块对角先验约束加入到光滑时序数据表示模型中,提出一种基于块对角约束的时序数据聚类算法。使用一种有效的求解方法优化模型,并对算法的收敛性和复杂度进行了理论分析。实验证明了该算法在时序型数据集上具有优秀的聚类性能和运行效率。