结合稀疏学习和超图的低秩属性选择算法

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:lndlfw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是指从大量复杂数据中寻找和提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源极其丰富的时代,数据挖掘技术正得到越来越多的重视,在工业发展,医疗卫生,信息产业等诸多领域发挥着重要的作用。  随着数据维度的增加,随之给数据挖掘任务带来更多挑战,例如属性之间的冗余,增加了数据的存储空间。一般高维数据不宜在实际应用中直接使用,而且对高维数据进行处理会大大增加数据处理的时间和空间复杂度。因此,如何有效地并且高效地利用高维数据在数据的预处理过程中是一个重大的挑战。高维数据并不是毫无结构的,对高维数据进行属性约简可以缩小数据维度。属性选择方法可以选择出小部分重要且具有代表性的属性作为新的属性集,并且能够维持原高维数据的数据结构甚至可以提高分类效果,因而成为机器学习的一个重要领域。常见的属性约简的方法有两种,即子空间学习方法和属性约简方法[1,2]。子空间学习法是将高维数据空间投影到低维数据空间,保持了数据间的相关性。属性选择方法是通过一种预设标准对每个属性进行打分排序,然后选择出部分重要且能代表原始特征的子集。属性选择方法是一种很重要的技术,因此它被广泛地运用于模式识别和机器学习等领域。属性选择方法最常见的有两种,分别是稀疏逻辑回归[3]和t-test检验法[4]。最近,有些研究者在属性选择算法中使用低秩回归模型。低秩回归模型是一种全新的非常有意义的子空间聚类方法,并广泛应用到机器学习和计算机视觉等领域并取得了比较满意的效果。但低秩回归方法直接地运用在实际应用中易出现以下问题:首先,当输入的数据的属性个数非常大时,传统的回归模型表现出很低的性能;其次,一般线性回归模型在不同的响应之间不会考虑其相关性,其典型的代表是最小二乘回归,此方法只是对每个预测的数据分别产生一个响应。  因此,本文针对原始数据具有缺失值的样本、异常样本、噪声样本和高维等问题,提出了一种利用稀疏学习、超图和低秩的属性选择算法,即结合稀疏学习和超图的低秩属性选择算法。  本文首先在线性回归模型框架中直接地运用低秩属性选择模型,低秩属性选择模型结合了两种方法:低秩表示方法和稀疏表示方法;接着为了使得模型选择出来的属性能够更好地保留数据的局部信息,在模型中嵌入一个基于超图的拉普拉斯矩阵,用于保持各属性之间的更深层次的关系;同时为了让模型选择出来的属性更具有代表性,在模型中恰当地嵌入经典子空间学习方法——LDA算法,以用于对低秩属性模型选择的结果进行微调;最后,提出一种新的算法优化方法,即对目标函数按顺序执行低秩属性选择和子空间学习方法,并不断交替地迭代执行此过程使得结果达到最优,最终取得全局最优解。本文提出的SLH算法结合稀疏学习、低秩超图和子空间学习各自优点用于回归分析和分类,经大量实验验证,该算法在回归和分类实验中能够取到较好的效果。
其他文献
打印机是计算机系统最重要的输出设备之一。打印驱动程序作为连接操作系统和打印机设备的纽带,研究windows环境下打印驱动程序具有重要的现实意义。由于目前市场上打印机种类
无线传感器网络,是一种在当今社会上受到密切关注,并且涉及到多门学科,跨越多个研究领域的网络技术。是一种由大量散布在监测区域内的传感器节点通过无线通信方式,自组织传递
Ad Hoc是一个多跳、临时性的对等移动自治系统,它由一组带有无线收发装置的移动节点组成。节点能量有限,拓扑结构频繁变化使得Ad Hoc不能使用传统网络的通信方式。目前针对Ad
无线传感网络的节点通常部署在恶劣的野外环境下,恶劣环境对节点间通信使用的无线电波影响较大,会造成数据的丢失,数据丢失后一般采用重传机制,该机制虽然在一定程度上可以提高数
中国区域经济发展不平衡一直颇受关注,而区域经济的研究也是众多专家、学者热衷的研究课题之一,传统的研究方法只能考虑影响经济的较少因素,如:GDP,GNP,人口等,不能全面、动态的研究
当前,互联网时代的信息传递已经深刻地改变了人们的信息共享方式,Web已经成为人们获取信息的主要途径。搜索引擎的出现从一定程度上满足了人们信息检索的需求,但它并不能满足不
随着网络的普及和多媒体技术的发展,目标识别技术已成为近年来需求和研究的热点。基于随机森林的目标识别方法在计算机视觉中是一类较新的方法,该类方法能够有效的处理大数据
视频目标追踪作为计算机视觉领域一项核心技术,是后续情景感知、目标行为分析、视频搜索等各种高层视觉处理的基础。视频中存在目标尺度变化、光的明暗变化、遮挡、快速移动
目前无线传感器网络(WSN)作为物联网领域一个热点的研究分支,引起了学术界和工业界的高度重视。随着网络的不断发展,IP网络与WSN的互联成为人们研究的重点。2004年11月IETF工
字符识别是模式识别的一个重要分支,它涉及模式识别、图像处理、数字信号处理、人工智能、模糊数学、信息论、计算机等学科,是一门综合性技术。而汉字识别的基础是预处理,预处理