基于低秩稀疏子空间的数据挖掘算法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:FX553152445
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据不仅具有高维的属性特征,通常还含有大量的冗余和噪声以及离群点,这使得高维数据的空间结构变得复杂,不利于数据挖掘算法使用数据中的真实关联结构来构建效果更好的模型。其中,构造系数矩阵是寻找数据中关联结构的重要步骤,即通过学习系数矩阵来捕捉样本之间或属性之间的关联大小,然而其学习过程对噪音和离群点等干扰较敏感。稀疏学习可以使系数矩阵变得稀疏,即相关的样本或属性之间具有大系数值,不相关的样本或属性之间的系数值很小甚至为零,因而所获得的稀疏系数矩阵能非常有效地反映数据之间的关联关系,从而使数据挖掘算法能有效的去除冗余和噪声以及离群点的干扰,从而获得非常好的鲁棒性。此外,高维数据可通过多个低维子空间组成的集合来表示,因此,使用子空间学习将复杂的高维数据空间转为结构较简单的低维子空间,更有利于数据挖掘算法找到数据中隐藏的全局结构和局部结构,从而得到更有效的数据挖掘结果。另外,数据中含有的噪声和离群点会使学习获得的系数矩阵的秩变大,使得数据挖掘算法无法捕捉到高维数据中真实的低秩结构,所以,通过在系数矩阵的学习过程中使用低秩约束来明确地降低其秩的大小。然而,现有的数据挖掘算法仍然存在一些不足:第一,仅考虑到高维数据中的片面关联结构,例如模型仅使用全局结构信息或局部结构信息,少部分算法能够通过较全面的结构信息来构建模型,然而却没有同时把稀疏学习和低秩约束以及子空间学习相结合来获取数据中的互补结构信息,以便得到更有效的数据挖掘模型;第二,将数据挖掘任务分成多个独立进行的步骤来完成,即使这些独立的步骤可以在各自优化过程中得到每个步骤的最优解,但是却不能确保最终获得的解是全局最优解。为此,本文主要研究稀疏学习和低秩约束以及子空间学习等技术,针对现有数据挖掘算法存在的一些不足,分别提出创新的多输出回归算法和子空间聚类算法来更有效的对高维数据进行挖掘。本文的主要研究成果可以归纳如下:1)提出了一种基于低秩约束和特征选择的多输出回归算法(Low-rank Feature Reduction for multi-output regression,简称为LFR),来解决现有多输出回归分析算法没有充分使用高维数据中固有的多种关联关系的问题。LFR算法结合使用稀疏学习和低秩约束以及子空间学习等技术来考虑多输出回归高维数据集里的属性特征与属性特征之间的关联关系、输出变量与输出变量之间的关联关系以及训练样本与训练样本之间的关联关系,提高多输出回归模型对多输出变量实值预测的能力。具体而言,LFR算法创新的使用稀疏学习理论中的l,,-范数正则化项来寻找高维数据中特征与特征之间的关联关系,并通过特征选择来选出具有重要信息的特征与去除噪声的干扰;此外,通过两个带有低秩约束的新矩阵的乘积来表示回归系数矩阵,从而间接地对回归系数矩阵进行低秩约束来探寻输出变量与输出变量之间的关联关系;另外,通过将l2,1-范数与损失函数项相结合来进行样本选择,从样本与样本之间的关联关系来去除离群点对回归模型学习的影响。通过在大量多输出回归数据集上进行的实验,结果表明本文第三章中所提出的LFR算法具有非常好的多输出回归预测能力。2)提出了一种基于低秩约束和稀疏学习的子空间聚类算法(Low-rank Sparse Subspace clustering,简称为LSS)。现有子空间聚类算法通过两个分开独立的步骤实现聚类,即首先构造相似度矩阵和然后进行谱聚类,不能确保最终获得的解是最优解,并且没有考虑从原始数据的低维结构中学习相似度矩阵。本文在第四章中提出LSS算法,创新地结合稀疏学习、低秩约束、样本自表达和子空间学习等技术来获得更好的高维数据聚类效果。具体而言,LSS算法通过稀疏学习对系数矩阵进行特征选择来去除冗余特征和噪声;并且从原始数据空间中及其低维空间中分别学习相似度矩阵,然后让这两个矩阵在迭代优化过程中相互得到优化,使相似度矩阵能更好地反映数据真实的相似度;此外,通过低秩约束来约束相似度矩阵的拉普拉斯矩阵,从而能在迭代优化的过程中同时获得最好的相似度矩阵和最优的聚类结果。通过大量聚类实验的结果,验证了本文第四章中所提出的LSS算法能够非常有效地对高维数据进行聚类。本文主要研究稀疏学习和低秩约束以及子空间学习等技术,提出了两种新的数据挖掘算法来分别解决数据挖掘领域中现有多输出回归算法和子空间聚类算法存在的一些不足,为数据挖掘算法的研究增加了新的想法和应用。通过在真实的公开数据集上的实验,验证了本文所提出的两种算法在各种评价指标下均能够取得非常好的挖掘效果。
其他文献
汽车保险奖惩系统是一种根据投保者历史索赔调整其续期保费的费率估算模型,是保险定价的重要组成部分.科学合理的奖惩系统不仅关系投保者的利益,在一定程度上也体现了保险公
近年来,伴随着中国经济的急剧发展,电梯行业呈现出了一派繁荣景象。从软件设计到硬件构造,从运行速度到乘梯舒适度,人们对电梯的综合性能要求越来越高。但随着制造成本的提升
《极玄集》是中晚唐之交一部极具佛教美学的选本。其浓厚的佛教美学意蕴与姚合生平、主张以及社会思潮有着密不可分的联系:一方面,姚合生平好与僧人交往,并游历众多佛寺,其诗
为适应互联网环境下动态的运行环境以及多变的用户需求,快速构建面向服务架构的软件系统,本文提出一种基于全局依赖网的Web服务组合自动演化方法.该方法能够根据用户演化需求
目的观察疏风解毒胶囊联合西医常规治疗对慢性阻塞性肺疾病急性加重期(风热犯肺证)的临床疗效,并对其安全性进行评价。方法60例符合纳入标准的AECOPD风热犯肺证患者按照就诊
三澳核电厂港口是为核电厂的建设和运行提供物资的重要场所,对核电厂的运营起着非常重要的作用。由于中国许多已建港口都存在着不同程度的泥沙淤积问题,需要通过整治和疏浚来
战略管控是如今现代化企业集团以公司长期的发展战略为目标,利用多元化技术,系统全面的把“组织-流程-制度-绩效”控制集为一体的现代化管理控制体系,从而以静态、动态两种管
Online Judge系统在线部分的安全需要防范用户的代码攻击和提交攻击,也要防范渗透和其他方面的注入。通过探究沙盒的性质以及对于网站的维护方面,对安全问题进行了实际的分析
<正>在北美地区,人们都流行自穿各种丑陋的毛衣庆祝圣诞,或配色夸张,或图案、装饰新奇。芬兰的一家报纸Helsingin Sanomat由此得来灵感,在节日前夕与TBWA合作设计出了一系列"
记者:豫剧借助电视这个平台在接受维度做出的探索的确取得了良好的效果。相比这些剧种,我们还有一些发展较为缓慢的戏曲艺术门类,您认为有哪些因素制约着它们的发展?魏明伦: