论文部分内容阅读
数据挖掘是指从大量复杂数据中寻找和提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源极其丰富的时代,数据挖掘技术正得到越来越多的重视,在工业发展,医疗卫生,信息产业等诸多领域发挥着重要的作用。随着数据维度的增加,随之给数据挖掘任务带来更多挑战,例如属性之间的冗余,增加了数据的存储空间。一般高维数据不宜在实际应用中直接使用,而且对高维数据进行处理会大大增加数据处理的时间和空间复杂度。因此,如何有效地并且高效地利用高维数据在数据的预处理过程中是一个重大的挑战。高维数据并不是毫无结构的,对高维数据进行属性约简可以缩小数据维度。属性选择方法可以选择出小部分重要且具有代表性的属性作为新的属性集,并且能够维持原高维数据的数据结构甚至可以提高分类效果,因而成为机器学习的一个重要领域。常见的属性约简的方法有两种,即子空间学习方法和属性约简方法[1,2]。子空间学习法是将高维数据空间投影到低维数据空间,保持了数据间的相关性。属性选择方法是通过一种预设标准对每个属性进行打分排序,然后选择出部分重要且能代表原始特征的子集。属性选择方法是一种很重要的技术,因此它被广泛地运用于模式识别和机器学习等领域。属性选择方法最常见的有两种,分别是稀疏逻辑回归[3]和t-test检验法[4]。最近,有些研究者在属性选择算法中使用低秩回归模型。低秩回归模型是一种全新的非常有意义的子空间聚类方法,并广泛应用到机器学习和计算机视觉等领域并取得了比较满意的效果。但低秩回归方法直接地运用在实际应用中易出现以下问题:首先,当输入的数据的属性个数非常大时,传统的回归模型表现出很低的性能;其次,一般线性回归模型在不同的响应之间不会考虑其相关性,其典型的代表是最小二乘回归,此方法只是对每个预测的数据分别产生一个响应。因此,本文针对原始数据具有缺失值的样本、异常样本、噪声样本和高维等问题,提出了一种利用稀疏学习、超图和低秩的属性选择算法,即结合稀疏学习和超图的低秩属性选择算法。本文首先在线性回归模型框架中直接地运用低秩属性选择模型,低秩属性选择模型结合了两种方法:低秩表示方法和稀疏表示方法;接着为了使得模型选择出来的属性能够更好地保留数据的局部信息,在模型中嵌入一个基于超图的拉普拉斯矩阵,用于保持各属性之间的更深层次的关系;同时为了让模型选择出来的属性更具有代表性,在模型中恰当地嵌入经典子空间学习方法--LDA算法,以用于对低秩属性模型选择的结果进行微调;最后,提出一种新的算法优化方法,即对目标函数按顺序执行低秩属性选择和子空间学习方法,并不断交替地迭代执行此过程使得结果达到最优,最终取得全局最优解。本文提出的SLH算法结合稀疏学习、低秩超图和子空间学习各自优点用于回归分析和分类,经大量实验验证,该算法在回归和分类实验中能够取到较好的效果。