结合稀疏学习和超图的低秩属性选择算法

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lansekafei4271
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量复杂数据中寻找和提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源极其丰富的时代,数据挖掘技术正得到越来越多的重视,在工业发展,医疗卫生,信息产业等诸多领域发挥着重要的作用。随着数据维度的增加,随之给数据挖掘任务带来更多挑战,例如属性之间的冗余,增加了数据的存储空间。一般高维数据不宜在实际应用中直接使用,而且对高维数据进行处理会大大增加数据处理的时间和空间复杂度。因此,如何有效地并且高效地利用高维数据在数据的预处理过程中是一个重大的挑战。高维数据并不是毫无结构的,对高维数据进行属性约简可以缩小数据维度。属性选择方法可以选择出小部分重要且具有代表性的属性作为新的属性集,并且能够维持原高维数据的数据结构甚至可以提高分类效果,因而成为机器学习的一个重要领域。常见的属性约简的方法有两种,即子空间学习方法和属性约简方法[1,2]。子空间学习法是将高维数据空间投影到低维数据空间,保持了数据间的相关性。属性选择方法是通过一种预设标准对每个属性进行打分排序,然后选择出部分重要且能代表原始特征的子集。属性选择方法是一种很重要的技术,因此它被广泛地运用于模式识别和机器学习等领域。属性选择方法最常见的有两种,分别是稀疏逻辑回归[3]和t-test检验法[4]。最近,有些研究者在属性选择算法中使用低秩回归模型。低秩回归模型是一种全新的非常有意义的子空间聚类方法,并广泛应用到机器学习和计算机视觉等领域并取得了比较满意的效果。但低秩回归方法直接地运用在实际应用中易出现以下问题:首先,当输入的数据的属性个数非常大时,传统的回归模型表现出很低的性能;其次,一般线性回归模型在不同的响应之间不会考虑其相关性,其典型的代表是最小二乘回归,此方法只是对每个预测的数据分别产生一个响应。因此,本文针对原始数据具有缺失值的样本、异常样本、噪声样本和高维等问题,提出了一种利用稀疏学习、超图和低秩的属性选择算法,即结合稀疏学习和超图的低秩属性选择算法。本文首先在线性回归模型框架中直接地运用低秩属性选择模型,低秩属性选择模型结合了两种方法:低秩表示方法和稀疏表示方法;接着为了使得模型选择出来的属性能够更好地保留数据的局部信息,在模型中嵌入一个基于超图的拉普拉斯矩阵,用于保持各属性之间的更深层次的关系;同时为了让模型选择出来的属性更具有代表性,在模型中恰当地嵌入经典子空间学习方法--LDA算法,以用于对低秩属性模型选择的结果进行微调;最后,提出一种新的算法优化方法,即对目标函数按顺序执行低秩属性选择和子空间学习方法,并不断交替地迭代执行此过程使得结果达到最优,最终取得全局最优解。本文提出的SLH算法结合稀疏学习、低秩超图和子空间学习各自优点用于回归分析和分类,经大量实验验证,该算法在回归和分类实验中能够取到较好的效果。
其他文献
随着无线通信的发展,频谱资源匮乏问题日益突出。认知无线电(cognitive radio,CR)技术作为解决该问题最有效的手段之一,可以有效提高频谱利用率。在认知无线电中,如何实现次
深度恢复是计算机视觉领域的基本问题,有着广泛的应用。.其中,基于双目相机的立体匹配是最常用的深度恢复方式之一,有着重要的理论研究和实际应用价值。传统的双目立体匹配算
随着网络的飞速发展和普遍,各种应用产生了海量数据,比如微信、facebook、购物平台等。数据之间存在潜在的关联关系具有不可估量的社会和经济价值,比如进行群体行为分析,辅助
随着人力资源管理在经济社会发展中的重要作用受到了社会各界的高度重视,人力资源服务行业蓬勃发展,基层员工作为人力资源服务行业中的核心竞争力,针对其建立一套吸引优秀人才、激励现有员工、稳定核心员工队伍的薪酬体系对于企业经营发展有着非常重要的推动作用。晨星人力资源服务公司前身为全民事业单位,其大锅饭式的薪酬分配模式已经不能适应当前外部竞争环境的变化,导致基层员工积极性不高、核心员工流失严重等情况。本文以
耐辐射奇球菌由于其强抗逆性的特点引起生物学家对其机制进行了广泛研究,而机械敏感性通道蛋白被认为是细菌应对低渗胁迫导致的膜张力变化的主要通道,而两者之间的关系至今尚
车辆队列技术通过在车辆上安装传感器、雷达以及车载通信单元,使得车辆之间能够相互感应或通信,进而通过特定控制策略使多车辆排成一列,并保持一定的安全距离。该技术能够实
图像哈希算法是图像内容信息安全领域的一项重要研究课题,已被成功广泛应用于图像检索、图像索引、数字水印、图像认证和拷贝检测等方面。从本质上而言,图像哈希算法是一种单
由于资源储备量有限,现代化进程加快,世界范围内出现资源供需不平衡的现象。为响应习总书记绿色发展的口号,促进能源结构的优化和升级,应该采用基建周期短,蕴量巨大的绿色能源,风能恰好具有上述优势。源文本分析外部不稳定因素对于风能的影响,并提出概率方法来提高风能利用率,为加快经济方式的转变提供科学指导。通过此类篇章的翻译,读者可以学习外国先进有效的评测方法,服务于我国能源产业的发展。本英译中笔译实践报告的
射频识别(Radio Frequency Identification,RFID)是一种自动识别技术。相对于条形码技术和磁条技术来说,RFID具有识别距离远、识别安全性高等优点,目前大量应用于仓库管理、
房地产市场的快速扩张为家居定制行业的发展迎来了新的契机,尤其是2016年4月份以来,房地产市场暴涨势头异常迅猛。进入2017年后,一线城市房地产增长速度虽然放缓,但三四线城