基于低秩矩阵估计的机器学习算法分析

来源 :浙江大学 | 被引量 : 0次 | 上传用户:wnan100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在例如推荐系统,图像/视频分析等许多机器学习问题中,数据往往是以矩阵的形式进行表达。在这些问题中,矩阵的低秩性质在学习原始数据隐藏结构的过程中有着非常重要的作用。因此,近来针对低秩矩阵算法成为机器学习和相关领域的一个研究热点。低秩近似算法大致上可以被分为两类:(1)恢复数据(很可能是不完整的)中的低秩结构;(2)利用低秩信息提升其他机器学习模型的学习效果。虽然在这两类算法中目前已经有很多相关工作,但是不管从准确性还是效率来看,已有的算法都并不能达到让人满意的效果。在本论文中,我们从算法理论分析到具体的应用对低秩近似算法进行了一个系统的研究,研究内容包括矩阵补全问题,主动学习和基于低秩矩阵正则化的大规模图像分类问题。总的来说,本文的创新点如下:1.为了加速针对大规模矩阵补全问题的奇异值截断式算法(Singular Value Thresholding, SVT),在本论文中我们提出了一种奇异值截断式加速算法(Accelerated Singular Value Thresholding, ASVT)将传统的SVT算法的收敛速度从O(1/N)提升至O(1/N2),其中N是优化过程中的迭代次数。具体而言,通过理论分析我们证明了原始优化问题的最优解可以通过其对偶问题的最优解直接得到。我们在人工数据集,真实距离矩阵数据集和电影推荐数据集上进行一系列的验证,实验结果证明了我们所提出算法的效率和有效性。2.为了更好地解决基于截断式核范数的矩阵补全问题,本论文首先对原始截断式核范数优化问题进行重构。原始优化问题中的多个限制条件会减缓基于乘子的交替方向理论(Alternating Direction Method of Multipliers, ADMM)的收敛速度,并会对解的准确性造成一定的影响。随后,我们对重构后的问题提出了一个带自适应惩罚项的ADMM算法(Alternating Direction Method of Multipliers with Adaptive Penalty, ADMMAP)。在每一次迭代中,我们根据一个迭代机制调整目标函数中的惩罚项大小,从而加速算法收敛速度。我们在人工数据集和真实数据集的实验分析证明了,同已有的矩阵补全算法相比,我们提出的算法具有更好的效果。3.为了更好地在数据集中选择最具代表性的样本(我们称之为锚点),本论文提出在锚点的选择过程中充分考虑数据的局部信息,并设计了一种基于近邻重建的主动学习方法(Active Learning via Neighborhood Reconstruction, ALNR)。传统基于重建的主动学习理论利用所有的锚点对目标数据进行重建。然而,离目标数据越近的锚点对数据重建的作用越大,而离目标数据较远的点对数据重建的作用较小甚至有负面的作用。因此,在我们提出的ALNR算法中,我们仅仅只使用目标数据的近邻锚点对目标数据进行重建。为更好地求解最终的优化问题,我们提出了一种高效的两步迭代机制。我们在人工和真实数据集上的实验效果证明了我们算法比已有的主动学习算法更加准确高效。4.为了更好地在图像分类问题中利用矩阵的低秩信息,本论文考虑当分类器系数空间存在低维结构时的图像分类问题。当前已有的算法往往利用矩阵的核范数来刻画分类器系数矩阵的低秩结构。然而,考虑核范数并不能对矩阵秩算子进行很好地近似,我们提出了一种基于截断式核范数的大规模图像分类算法。为了求解最终非凸非光滑的优化问题,我们设计了一个高效的算法将原始问题首先分解为多个非光滑凸子问题,并进行迭代优化求解。在每一次迭代中,我们将每一个子问题转化为一个无线维空间下的l1范数正则化问题,并使用一种简单高效的加速坐标梯度下降算法进行求解。我们在若干大规模数据图像数据集上进行了测试,实验结果显示同已有的大规模图像分类算法相比,我们提出的算法有效地提升了大规模图像分类系统的准确性。
其他文献
制备了Fe3O4@ZIF-8磁纳米复合材料,以其作为吸附剂建立快速高效的磁固相微萃取方法。首先用水热法合成Fe3O4纳米球,然后进行羧基功能化,最后包覆ZIF-8外壳制备了Fe3O4@ZIF-8
时序数据中的异常检测指的是在时序上去检测分析数据中异常的特征、趋势或模式.自动化的异常检测方法常会忽略细微的、模糊的、不确定的异常.可视分析通过对数据的可视表达和可
目的浅谈手术室一次性无菌物品的高效管理措施。方法回顾性分析我院2015年1月至2015年12月(实施前)手术室一次性无菌物品的管理情况,根据此时间存在的问题制定出高效管理措施
特殊结构造型钢结构的广泛使用使得BIM辅助指导安装施工应用越来越广泛。结合工程实际介绍了BIM技术在辅助大型复杂钢结构现场安装施工中的应用,其解决了传统的钢结构现场安
近年来,微、纳领域科学技术的发展对开发跨尺度力学参量的传感与检测新方法的迫切需求受到了国内外多学科研究者的共同关注。随着碳纳米管拉曼效应相关研究的发展,以碳纳米管
水下球形机器人(Spherical Underwater Vehicles)作为一类结构特殊的水下机器人,具有耐压性能好、流体动力学计算无耦合、各向流体动力参数相等等优点,在水下考古探险、海底
汽车燃料排污对大气层的污染一直是本世纪我们所面临的急待需要解决的紧迫问题之一。 美国克莱斯勒汽车公司一直在进行赛车项目的研制和开发,其目的是能使公司参与第一流的
本文主要讨论广告英语中几种常用修辞手段,特别是双关和仿拟在英语广告中的应用。
光纤传感器与传统传感器相比具有结构简单、设计灵活、抗电磁干扰、耐恶劣环境等优点,且能实现高精度、高稳定性以及高灵敏度测量。强度调制型光纤传感器是外界信号引起光纤
目的对比分析小儿腹股沟疝采用腹腔镜疝囊高位结扎术与传统开放疝囊高位结扎术治疗的临床疗效。方法对2015年9月至2017年5月我院收治的220例小儿腹股沟疝患儿的临床资料进行