论文部分内容阅读
在信息技术日新月异的今天,数据量呈几何式增长,数据的维数越来越高,使得信息更为充分的同时,也给数据挖掘算法带来了诸多挑战,尤其是对分类和聚类问题的影响较为突出。数据的高维性不仅增加了算法的时间复杂度和空间复杂度,还降低了算法的求解精度,给最终的分析决策带来负面影响。维度约简作为数据挖掘领域的一个研究热点,能有效解决这一问题。维度约简的主要目的是使算法在构造模型的过程中,只关注那些任务目标相关的属性特征,不考虑那些冗余或不相关的特征,从而降低算法的时间和空间复杂度,提高算法运行效率。维度约简技术针对数据的不同分布情况,采用不同的方法。当高维数据分布于同一个低维空间时,通常采用特征选择方法;当高维数据分布于几个不同低维空间时,通常选择子空间聚类方法。现有的特征选择和子空间聚类方法都存在各自的不足:特征选择方法选择的特征子集对分类识别精度不够高,子空间聚类方法的聚类精度不够高。本文围绕特征选择方法和子空间聚类方法主要做了如下两方面的工作:1.当高维数据分布于同一个低维空间时,现有的基于信息论的特征选择方法是通过已选特征而不是通过所有特征来评估候选特征,并没有充分考虑特征的全局冗余性,导致选择的特征子集对分类识别精度不够高。对此,提出一种基于PageRank和遗传算法的特征选择方法,将每个特征视为网络节点,利用互信息为节点创建边,通过改进的PageRank对网络节点的全局冗余性进行评估,依据本文评估准则对节点排序,并用遗传算法选择最优特征子集。在UCI基准数据库中10个数据集上进行测试,证明提出的基于PageRank和遗传算法的特征选择方法能选择出更优的特征子集。2.当高维数据分布于几个不同低维空间时,目前性能最优的算法是LS3C/NLS3C算法。然而,LS3C/NLS3C算法在稀疏编码阶段所获得的系数矩阵中,有一些属于不同子空间的数据对象之间线性表示的系数不为0(糟糕系数),导致由系数矩阵得到的关联矩阵中存在部分属于不同子空间的数据对象之间的相似度不为0(糟糕相似度),降低了LS3C/NLS3C算法的聚类精度。对此,提出一种剔核潜空间稀疏子空间聚类(DLS3C/DNLS3C)方法。在求解关联矩阵阶段,对优化函数中的系数矩阵添加一个Frobenius范数约束项,避免了在同一个线性表示中所有系数的绝对值同时趋于0,在仿射条件下,这种约束能迫使相似度大的数据对象的系数绝对值较大,而相似度小的数据对象的系数绝对值较小,再通过小系数剔除算法获得一个更优的系数矩阵,从而达到在谱聚类阶段提高聚类精度的目的。在子空间聚类领域的基准数据集Hopkins155进行测试,证明剔核潜空间稀疏子空间聚类方法能够有效剔除的糟糕系数,从而提高最终的聚类精度。