粗糙拟阵及其在高维数据降维中的应用研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户：aiwaner

【摘要】

：

随着大数据时代的来临,大规模的非结构化和半结构化的数据存在于每个行业和每个领域,这就迫切要求人类对海量数据进行挖掘和规则提取。数据量大、数据类型繁多、价格密度低和

【作者】

：

王石平

【出处】

：

电子科技大学

【发表日期】

：

2014年01期

【关键词】

：

机器学习特征选择拟阵稀疏表示粗糙集

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的来临,大规模的非结构化和半结构化的数据存在于每个行业和每个领域,这就迫切要求人类对海量数据进行挖掘和规则提取。数据量大、数据类型繁多、价格密度低和速度快时效高是大数据的四个重要特征,这就意味着传统的方法和技术已无法应对目前的大数据时代。正因为如此,数据的降维显得尤为重要,这一方面可以缓解甚至解决“维数灾难”,降低计算成本,减少过拟合风险,另一方面可以更好地认识和理解数据特征间的联系。本文相对系统地研究了各类数据类型的特征选择,尤其是建立了离散型和连续型的特征选择的专门模型和算法。特别地,本文还提出了次模函数的贪婪算法的评价体系,这对建立高效的贪婪算法有着重要的指导意义。同时,我们还将稀疏表示、核函数和非负矩阵分解等技巧运用到特征选择中,设计了多个高效的特征选择算法。具体的创新性研究成果主要体现在如下四个方面:(1)引入拟阵次模性来评估基于贪婪策略的特征选择算法。很多高效的算法都是建立在连续平滑的目标优化函数之上的,而对于离散型数据的特征选择问题,这些算法往往是无效的,从而几乎所有的离散型数据的特征选择算法都是基于贪婪策略。众所周知的是,贪婪算法得到的解往往不是整体最优解,而是近似解或满意解。这就造成了满意解和整体最优解之间的“灰色地带”,而如何度量这种“灰色地带”,即满意解和最优解之间的差异,是一个非常困难但非常重要的问题。为此,本文首先建立了粗糙集的拟阵结构,再次借助拟阵次模性来刻画贪婪算法对最优解的逼近程度。特别地,本文还给出了几类特殊的目标优化函数的的贪婪算法的紧凑边界。(2)提出线性结构保持的特征选择算法。如何衡量数据的线性结构一直是很困难的问题,而对于特征间具有良好相关性的数据,这一问题显得异常重要。本文借助稀疏编码来刻画数据的线性相关性。进一步地,考虑到稀疏表示过程中利用L1-范数来调节表示系数的稀疏性程度,这导致了目标优化函数的非平滑性。为此,本文通过给定系数矩范数的上界,将这类非平滑的优化目标函数转变为平滑的优化目标函数。特别地,本文还通过邻域来刻画数据的局部线性保持性,将稀疏编码过程和特征选择过程融入到一个框架中,提出邻域嵌入的特征选择算法。(3)引入特征选择算法的核函数技巧。核函数是一种重要的处理非线性数据的技巧,其基本思想是将原数据映射到高维乃至无穷维空间中进行处理,而这一过程并不需要非线性变换函数的表达式和参数,从而有效地避免了“维数灾难”。也正是因为非线性变换函数是未知的,很多模型并不能嵌入核技巧。本文利用投影矩阵将特征选择问题表示为矩阵分解问题,再利用核技巧实现对数据的非线性处理。(4)提出一种高阶矩阵分解问题的近似算法。数据的高维性是大数据的一个重要特征。通过矩阵分解,可以实现对高维数据的降维、压缩和归类。然而,大部分的现存的矩阵分解方面的研究成果都是局限于二阶的优化问题,而实际生活中的众多优化问题往往可以形式化为高于二阶简称高阶的矩阵分解问题,如聚类问题和含有正交约束的各类优化问题。本文将特征选择问题形式化为四阶的目标优化问题,继而通过惩罚矩阵提出一套解决高阶矩阵分解问题的近似算法并证明了其收敛性。综上所述,本文从离散数据的特征选择问题出发,建立了拟阵和粗糙集之间的联系,定义了评价贪婪算法的度量,引入了特征选择的核技巧,提出了数据线性结构保持的度量,并给出了高阶矩阵分解的近似算法。这些研究成果进一步丰富了数据降维技巧体系,也为后续研究工作奠定了重要基础。

其他文献

补益肝肾配合西药治疗高血压病30例

目的:观察补益肝肾类中药配合西药治疗高血压病的临床疗效.方法:治疗组采用女贞子、旱莲草、黄芩、夏枯草、丹参、枸杞、黄芪等配合卡托普利治疗30例高血压病患者,与单纯应用

期刊

高血压病/中西医结合疗法补益肝肾/治疗应用卡托普利/治疗应用

药用植物半枝莲群落的区系与物种多样性研究

[目的]研究半枝莲群落的区系成分与物种多样性,为药用植物半枝莲的科学栽植和管理提供科学的理论依据。[方法]采用样地调查法,对半枝莲群落的物种组成、区系成分和物种多样性

期刊

半枝莲药用植物区系成分物种多样性

浅析信息化防治腐败的利弊

信息化技术的飞速发展，为防治腐败工作提供了一个新的途径。单靠制度来防治腐败，主要存在两个问题：一是制度的制定与制度的执行效果之间存在一定的差距，二是静态制度对防治动态腐

期刊

防治腐败信息化技术利弊信息技术执行效果腐败行为解决问题腐败问题

拓展老教材实践新课标——“生活中的百分数”教学片断实录与评析

一、背景分析背景说明当新课程以全新的理念走进学校、走进课堂时,承担着课改实验任务的教师已经作出了积极的应答。但课改实验需逐步推进,更多的教师目前仍然在使用老教材。

期刊

百分数教学片断新课标

也谈声像档案的管理

声像档案是指国家机构、社会组织以及个人在从事各种活动中形成的对国家和社会有保存价值的照片、底片、影片、唱片、录音带、录像带等不同材料为载体，以影像、声音为主，并辅以

期刊

声像档案管理国家机构社会组织文字材料保存价值历史记录文字说明

心脏术后输入鱼油脂肪乳致急性肝损伤1例

<正>鱼油脂肪乳(fish oil fat emulsion)近年来使用规模日益扩大,临床上观察到的不良反应也相应增加。我院心脏外科近期出现一例因围术期使用鱼油脂肪乳导致急性肝损伤病例,

期刊

鱼油脂肪乳急性肝损伤多烯磷脂酰胆碱

基于本体的设计理性检索研究

当今世界,企业的成功越来越多地依赖于其所拥有的知识资产及其对知识资产的有效使用。鉴于设计理性(Design Rationale)是十分重要的产品设计知识,对于提高企业的产品设计效率

学位

设计理性设计理性表示设计理性检索本体知识重用

浅谈图书馆室内空间布局对读者阅读兴趣的影响

现代化的图书馆的空间结构和布局规划都是在读者需求改变的情况下进行的，馆内各功能区域的设置对读者阅读兴趣都有影响，图书馆空间布局要综合考虑馆藏数量、读者人数、服务内容

期刊

图书馆室内空间布局读者阅读兴趣

“一带一路”沿线地区红色教育旅游资源开发与保护情况的研究——以广东省为例

在"一带一路"倡议背景下,如何传承革命精神增强文化自信、如何在开发红色教育旅游资源的基础上实现对红色基因革命文化的保护,同时更好地发展挖掘旅游资源,是我国旅游业目前

期刊

一带一路红色教育旅游资源开发与保护

基于标注和未标注数椐的虚假评论识别研究

互联网的快速发展改变了人们的消费方式,越来越多的用户选择通过互联网购买所需物品或服务.当前的消费者在购买产品或服务前,通常会阅读与该产品或服务相关的评论以决定是否

学位

虚假评论全监督学习半监督学习支持向量机计算语言学

粗糙拟阵及其在高维数据降维中的应用研究

与本文相关的学术论文