基于判别信息和几何信息的聚类方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：lhaho

【摘要】

：

我们现在处于大数据时代，微信、微博等新媒体迅猛发展，我们不仅是数据的接收者，更是数据的发布者。图片、视频、音频、文字等信息遍布网络，大数据成为网络时代的资产。大数据本身

【作者】

：

张竹

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2015年期

【关键词】

：

几何信息特征选择判别信息机器学习数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我们现在处于大数据时代，微信、微博等新媒体迅猛发展，我们不仅是数据的接收者，更是数据的发布者。图片、视频、音频、文字等信息遍布网络，大数据成为网络时代的资产。大数据本身既不是科学也不是技术，大数据的特点是数据数量巨大，价值密度低，实时在线，多源异构，我们希望从庞大的数据中获取有价值的信息，聚类是挖掘大数据资产价值的第一步，大数据突破点在于聚类。现有的机器学习聚类算法如谱聚类、双图聚类、特征选择聚类算法等都存在一定的局限性，传统的谱聚类算法忽略了数据集的判别信息，双图聚类算法没有考虑特征空间的几何信息，特征选择算法忽略了数据本身的自相似性等，聚类的准确率有待提高。因此，我们以聚类为主题，通过挖掘数据本身固有的结构如局部几何结构、全部判别结构，特征空间几何信息等信息对数据聚类。本论文的主要工作如下：　　1）谱聚类算法建立在图论中的谱图理论基础上，将聚类问题转化为图的最优划分问题。已有学者证明在一定的条件下，谱聚类算法和非负矩阵分解（NMF）等价。在此基础上，已有的非负谱聚类算法NSC-Ncut、NSC-Rcut、NSSC-Ncut和NSSC-Rcut都没有考虑数据集的全局判别信息。基于谱聚类与NMF的等价关系，考虑到数据集的全局判别信息，我们提出了新的谱聚类算法，即基于全局判别的非负谱聚类算法（GDBNSC-Ncut和GDBNSC-Rcut）。新的谱聚类算法保留了数据集的全局几何结构和全局判别结构，获取了数据的内在几何结构，且有更强的判别能力，提高了聚类的质量。实验结果表明，该算法能获得数据集的全局判别信息，具有更好的聚类效果。　　2）特征选择算法剔除了不相关和冗余的特征，保留最有代表性的特征，不仅能降低数据维数，还能提高算法的质量。现有的特征选择算法大都是在数据空间进行，本文提出了一种新的特征选择算法，即基于自表示的双图正则特征选择聚类算法（DFSC），运用数据可以由自身表示的特性，我们同时保留数据空间和特征空间的局部几何信息。通过对数据空间的自表示系数矩阵加以l2,1范数约束，DFSC算法可以有效地选择最具代表性的特征。实验结果表明，由于考虑了特征空间的信息，DFSC算法的聚类质量优于一些其他的特征选择算法。此外，DFSC算法和一些双图聚类算法相比，多了一个选择的过程，对比试验结果表明DFSC算法的聚类质量更高，选择判别性的特征有利于提高聚类质量。　　3）特征选择算法被广泛用于高维数据的降维，考虑到高维数据的自表示特征，受流形学习思想的启发，我们提出了一种新的特征选择聚类算法，即基于自表示和局部保留的无监督特征选择聚类算法（SRLP-FS）。我们运用了高维数据可以由自身表示的特性，即每个特征属性可由相关特征属性的线性组合来表示的特性。自表示的系数矩阵可以用来保留特征空间的局部几何信息，我们对自表示的系数矩阵加以l2,1范数约束，SRLP-FS算法可以有效地选择最具代表性的特征。实验结果表明，由于考虑了数据集特征空间的局部几何信息，且运用了高维数据的自表示特性，SRLP-FS算法的聚类质量优于其他一些特征选择算法。

其他文献

拟南芥转录因子WRKY8调控植物盐害及茉莉酸调控冻害反应的机制研究

WRKY蛋白是植物特有的一大类转录调控因子，模式植物拟南芥中拥有74个成员。前期研究表明WRKY转录因子在植物响应逆境胁迫的过程中发挥着重要的调控作用，然而由WRKY转录因子介导

学位

拟南芥转录因子盐害冻害茉莉酸逆境胁迫

“情感应力”与健康长寿

近年来，西方国家医学理论界正在兴起一门新的长寿理论——“情感应力”说。这种学说认为：在现代生存竞争日益激烈的社会生活中，由于个人竞争能力的强弱与种种客观条件的限制，许多

期刊

感应力情感心理障碍治疗和预防医学理论势能生理健康生存竞争社会生活竞争能力心理学症状药物学说寿命求医理想国家长寿

模拟酸雨和凋落叶厚度对亚热带树种凋落叶分解和土壤呼吸的影响

酸雨，是目前人类遇到的全球性区域灾难之一，对生态循环的平衡和人类健康造成了不可估量的影响，其出现的频率和强度也日益增加。酸雨对凋落物分解与养分还原、生态系统碳循环与碳

学位

酸雨凋落叶厚度亚热带树种土壤呼吸落叶分解

多晶硅梁疲劳失效的研究与分析

MEMS器件在受到循环载荷的作用之后发生失效，这种失效方式即为疲劳失效。例如RF开关等面外运动器件，在循环的振动载荷作用后，器件可能会发生断裂、软化等疲劳失效现象。为了避免

学位

MEMS器件多晶硅梁振动载荷疲劳失效加速寿命因子可靠性分析

青杨(Populus cathayana)雌雄植株及其交互嫁接对干旱和铅胁迫的生理生态响应差异

在中国，干旱和铅污染越来越成为限制森林生态系统生产力的重要因素，尤其对雌雄异株森林生态系统构成了严重的威胁。本文选择青杨雌雄植株一年生扦插幼苗为试验材料，采用盆栽试验

学位

青杨雌雄异株嫁接技术干旱胁迫铅胁迫生理生态特性

压制式干扰抑制算法研究

雷达对抗近年来一直是军事领域研究的热门，随着大量不同形式的干扰不断涌现以及战场电磁环境的不断复杂化，对雷达抗干扰课题的研究也就显得尤为重要。压制式干扰是雷达干扰的主

学位

压制式干扰雷达对抗抑制算法

嵌入式Linux在多参数监护仪上的应用

监护仪是一种以测量和控制病人生理参数，并可与已知设定值进行比较，如果出现超标可发出警报的装置或系统，必须连续监护病人的生理参数，检出变化趋势，指出临危情况，供医生应急处理和

学位

多参数监护仪嵌入式技术波形刷新

面向SAR图像目标识别和地物分类的深度学习研究

深度学习起源于人工神经网络,模仿人脑计算模式,可以自动地分层学习出抽象特征,在图像领域应用广泛,尤其是在目标识别和图像分类方面。随着遥感技术的发展,合成孔径雷达(Synt

学位

DBNSARRBMgaussianRBMwishartRBM

基于深度学习的图像超分辨率复原

如今社会，图像扮演着越来越重要的角色，然而图像在成像和传输过程中有很多原因都会导致其质量受损，分辨率下降，因此超分辨率复原在图像处理领域有着举足轻重的地位。这一课题受到

学位

超分辨率深度学习图像处理恢复模型

川西亚高山不同海拔岷江冷杉林下土壤有机物和微生物对模拟增温的响应

气候变暖将会对陆地生态系统产生影响，土壤也不例外。已有的研究表明气候变暖将提高有机质的分解速率，降低土壤碳储量，并可能有效缓解气候变暖的速率。随着全球变暖趋势的加剧，森

学位

高山森林气候变暖OTC增温土壤碳储量

基于判别信息和几何信息的聚类方法研究

与本文相关的学术论文