基于维数约简的无监督聚类算法研究

来源 :兰州大学 | 被引量 : 6次 | 上传用户：qq616009003

【摘要】

：

近年来,随着数据获取能力的不断提高和计算机的飞速发展,人们获得的数据信息越来越多,数据维数越来越高,如何寻找这些海量高维数据信息中潜在的规律,更好地为人类服务,是目前

【作者】

：

杜世强

【出处】

：

兰州大学

【发表日期】

：

2017年01期

【关键词】

：

聚类分析维数约简矩阵分解 l2 1范数特征选择特征抽取子空间聚类低秩表示

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着数据获取能力的不断提高和计算机的飞速发展,人们获得的数据信息越来越多,数据维数越来越高,如何寻找这些海量高维数据信息中潜在的规律,更好地为人类服务,是目前机器学习面临的挑战之一.在没有标签信息的情况下,对高维数据实施维数约简的同时进行归类分析,挖掘数据的内在结构,是当前机器学习的一个难点、也是热点之一.本文主要研究了在没有标签信息的情况下,以矩阵分解为基础,对原始高维数据样本维数约简的同时进行聚类分析,从而揭示数据样本的内在本质结构.具体而言,本文的主要研究工作和创新性内容如下:1.针对现有基于回归的特征选择算法,通常选用0-1伪标签矩阵作为目标矩阵,使得模型成为一个NP-难问题,提出一种基于矩阵分解的鲁棒特征选择算法(RUFSM).RUFSM首先将目标矩阵分解为两个矩阵(正交聚类中心矩阵和低维稀疏表示矩阵)的乘积,不仅使得模型易于迭代求解,而且特征选择矩阵(投影矩阵)能更好地选择具有类别辨别性的特征;其次,聚类中心的正交性约束和低维表示的稀疏性约束不仅保证异类投影样本相互远离,同时使得同类之间相互靠近;最后,l2,1范数作为误差度量能有效消除噪声样本和离群样本对数据样本本质属性特征的影响,同时进行的鲁棒特征选择和鲁棒聚类能保证算法得到总体最优解.大量实验结果表明提出的RUFSM算法无论在鲁棒性上还是聚类性能上都超过了相关鲁棒特征选择算法.2.针对低秩表示目标函数中核范数的不可微问题,提出一种非负的图正则化低秩因子分解算法(GLCF).GLCF算法首先利用矩阵理论,将保持全局结构的低秩约束巧妙地转化为两因子Frobenius范数之和的最小化问题,考虑到非负约束在聚类分析中的语义相关性,对因子分解矩阵进行非负约束,同时利用流形正则化项使得低维表示保持了原始样本的局部几何结构;其次,给出一种优化目标函数的多步更新规则,并从理论上证明了该算法的收敛性;最后,分析了提出的多步更新规则与梯度下降算法的相互关系,且针对负值数据样本给出一种多步更新规则.与相关基于非负约束的矩阵分解算法相比,实验结果表明了提出的GLCF算法具有更好的聚类性能.3.针对现有的基于低秩表示的子空间聚类算法通常直接选用含有噪声的原始数据样本作为字典求取原始样本的低秩表示,且构建亲和矩阵和聚类分两步独立进行的缺点,提出了一种图正则化紧凑低秩表示算法(GCLRR).首先,GCLRR算法为了消除噪声样本作为字典对低秩表示的影响,用原始数据的线性组合作为字典,不仅使得字典在算法优化过程中通过学习得到,而且使得低维表示随着字典优化更新;其次,正交的线性组合系数矩阵与低维低秩表示矩阵可认为是对LRR算法中低秩表示矩阵的分解,因此,算法优化过程中得到的低维低秩表示可直接用于聚类;最后,分别保持全局结构和局部结构的低秩和流形正则化直接约束在低维表示上,使得低维表示具有良好的类别属性.聚类实验结果表明GCLRR算法在挖掘数据样本潜在子空间方面,优于最新的LRR相关算法.

其他文献

推进实施存款保险制度促进区域金融风险防范化解

<正>制定和执行货币政策、维护金融稳定、提供金融服务是央行的三大职能,金融的稳定和安全关乎经济社会发展全局。2015年2月17日,国务院总理李克强签署第660号国务院令,公布

期刊

存款保险制度银行业金融机构吸收存款区域金融风险存款保险基金金融风险防范防范化解

眼动追踪技术与婴幼儿研究：程序、方法与数据分析

眼动技术在婴幼儿研究中成为一种流行的研究工具。如何合理地选择和使用眼动仪进行数据收集及分析,是婴幼儿眼动研究者需要考虑的重要问题。本文从眼动仪使用的流程出发,主要

期刊

眼动婴幼儿校准数据挖掘

面向体数据可视化的数据预处理方法研究

体数据可视化通过直观形象地向用户展示体数据内部隐含的特征信息,帮助用户对数据做进一步的分析与处理,广泛应用于医学、气象、地质、科学仿真等领域。如何构建高质量的数据

学位

体数据可视化L0梯度最小化平滑面切割压缩等值面特征增强

CT联合MRI用于子宫内膜癌分期诊断的价值与效果分析

目的分析磁共振成像（MRI）联合CT在子宫内膜癌分期诊断中的应用价值与效果。方法选取2014年7月1日至2017年6月30日该院经手术病理检查确诊并接受手术治疗的子宫内膜癌患者50例作

期刊

CTMRI子宫内膜癌分期诊断CT MRI endometrial cancer staging diagnosis

态度

一个日本人因为心脏病做了外科手术，出院时医生给他看账单，他突然怒气攻心，死亡：两个美国律师吃饱了没事做，在办公楼里赛跑，其中一个近视眼撞破了玻璃，从摩天大楼里飞出，死亡：一名叫凯

期刊

外科手术摩天大楼恐怖分子心脏病日本人办公楼近视眼炸弹

空气源热泵-冷柜双联机性能模拟与实验研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

空气源热泵-冷柜双联机相对湿度质量流量比室外温度

捕获环境下的区域抑制RFID多标签识别方法研究

在很多射频识别(Radio Frequency IDentification,RFID)应用中,为获得识别对象的实时数量与种类信息,或者为达到100%的识读率,读写器需要重复识别其覆盖范围内的标签,这种情

学位

射频识别读写器标签防碰撞算法二进制树查询树比特跟踪捕获效应区域抑制技术收集机制标签分组识别速率

分布式流体系结构DSAR关键技术研究

近年来,以大数据、云计算、物联网、移动互联网等为代表的互联网新兴技术已经成为国际社会普遍关注的热点,在金融、军事、科研、通信、医疗等领域都引起了人们的高度重视。目

学位

分布式流体系结构编程模型资源管理性能模型优化技术容错技术

知识资本价值评估研究现状分析

期刊

知识资产无形资产价值评估

贵州石头寨二叠系古油藏油气成藏期分析:流体包裹体与Sm-Nd同位素制约

贵州石头寨二叠系古油藏是滇黔桂地区众多上古生界生物礁型古油藏的典型代表。该古油藏发育了三期溶孔、裂缝充填方解石,其中含丰富的油气包裹体,三期油气包裹体组合依次为:

期刊

流体包裹体Sm-Nd同位素成藏时代古油藏石头寨

基于维数约简的无监督聚类算法研究

与本文相关的学术论文