论文部分内容阅读
大数据时代,人类在生产、生活中积累了大量的数据,但是真正有用的信息却相对较少,急需发展大数据挖掘技术。国家“互联网+”战略的推进,将更为广泛的积累数据,尤其是互联网上传播的音视频、图片、网页等,呈爆炸式增长趋势,大数据挖掘将这些数据转化成可资人使用的信息。人类基因组计划、蛋白质组计划和脑计划的推进,生物数据迅速积累,大数据挖掘利用微观世界的数据协助医疗、促进健康。在求解大数据挖掘难题中,机器学习技术的发展给人类带来了曙光。近年来,深度学习技术尤其引人瞩目!但是,深度学习技术需要大量的样本训练模型,对少量的样本做推理和预测,这种约束过于苛刻。传统的机器学习技术对训练数据的规模约束较轻,不失为目前最流行的深度学习技术的有益补充。因此,本文探讨传统机器学习技术在大数据挖掘中的应用。传统的机器学习技术琳琅满目,如支持向量机、线性判别分析、K-均值聚类等,它们在处理高维数据时因为冗余特征而性能受损,因此需要发展数据降维方法从冗余的高维数据中提取关键特征。主成分分析是一种典型的数据降维方法,虽然它性能优异,但是在处理非负数据时,非负矩阵分解因提取局部特征而性能更优。非负矩阵分解(Non-negative Matrix Factorization,NMF)受到国内外研究人员的广泛重视和广泛应用,然而它不能在捕捉样本数据类内关系的同时保持不受异常值的影响。本文提出一种新的非负矩阵分解方法,即非负低秩组稀疏矩阵分解(Non-negative Low-rank and Group-sparse Matrix Factorization,NLRGS),主要工作归纳如下:1)低秩表达稀疏分解可以从被污染的观测数据恢复数据的低秩部分同时捕捉散点,也就是稀疏成分。为了获得样本类内关系、识别出异常值和保留NMF的非负性和基于部分的表达特性,NLRGS在NMF基础上加入低秩约束和组稀疏约束。2)NLRGS的目标函数是非凸的,不易求解,包含多个等式约束以及低秩约束和组稀疏约束,本文提出用增广拉格朗日方法去除等式约束为无约束的算法求解问题,对目标函数进行优化求解,构造NLRGS的求解算法。3)将NLRGS用于基于内容的图像检索应用中的聚类步骤,并针对NLRGS求解过程改进图像检索的编码方式。4)为了解决大规模图像检索问题,提出并行化NLRGS并将使用旋转尺度不变性特征的图像检索流程并行化。数值实验结果表明,NLRGS的图像聚类性能不仅在人脸数据上优于传统NMF方法,图像检索中效果也优于传统的基于K-均值的图像检索方法。