大规模机器学习的随机算法与理论分析

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yancliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生活在大数据时代,而大数据给计算带来了巨大的挑战。许多经典的矩阵计算和机器学习方法由于时间复杂度、空间复杂度过高,故不适用于大数据问题。近年来矩阵数据的快速近似方法受到了广泛关注,多种快速近似方法被提出并被成功应用于加速矩阵计算和机器学习。矩阵快速近似方法采取用精度换时间、空间的策略,损失少量精度从而大大降低时间复杂度和空间复杂度。矩阵快速近似方法已经广泛用于加速特征分解、奇异值分解、矩阵求逆等矩阵计算操作,也广泛用于最小二乘法、矩阵恢复、高斯过程、核PCA、谱聚类、流形学习等机器学习方法。目前的研究热点及尚未解决的问题主要在于设计近似方法的模型和算法,从而使得近似造成的精度损失更小,以及使得近似本身能被更快速地求出。  本文关注矩阵近似的模型、算法、以及快速矩阵近似在机器学习上的应用这三个方面。本文提出了多种快速矩阵近似的模型和算法,并在理论上证明模型和算法的优越性,并用大量实验予以验证。本文将矩阵近似的方法应用于加速子空间聚类和行列式点过程等机器学习问题,在理论和实验两方面都取得很大进步。本文的贡献概括如下:  Nystr(o)m方法从2001年开始被用于机器学习领域,现在是加速核方法(kernel methods)最有效和最广泛使用的方法。本文证明出Nystr(o)m方法的理论误差下界,表明Nystr(o)m方法的误差有时会随矩阵大小线性增长;这是学术界的首次理论证明。  本文提出对Nystr(o)m方法的一种有效改进,改进的方法的理论误差上界比以往方法优一个量级。此外,本文证明出该方法多种好的理论性质,并给出两种快速求解的算法。  CUR矩阵分解是一种高效的非负矩阵分解。本文提出一种新的算法求解CUR,误差界和时间复杂度均比已有算法优一个量级。  子空间聚类是一种广泛使用的无监督学习方法,但已有算法时间复杂度全都是平方或立方,而且只有少数有理论保证。本文提出一种基于数据选择的随机算法加速子空间聚类,算法时间复杂度仅为线性,是目前最快的算法。通过结合一种高效的去噪方法,本文的算法不仅速度最快,而且理论误差界大大优于现有所有算法。  行列式点过程(DPP)是统计学、人工智能领域一种重要的随机过程,但其采样算法时间复杂度过高。本文提出一种快速近似算法,在保证速度的同时,该算法的误差界优于已有近似算法。
其他文献
随着互联网的持续发展和日益普及,互联网成了人们生活、工作和学习中不可或缺的一部分。每个用户既是信息的获取者也是信息的提供者,这使得网上的信息呈现几何级增长,涉及面
核桃种植业已经成为云南省农民致富奔小康的骨干产业,核桃种植面积在逐年扩大,但核桃病虫害种类繁多,为害特征各不相同,而由于核桃种植户在核桃病虫害预防和诊治方面的知识比较欠
近年来,随着互联网技术的不断快速发展,网络中的数据量日益庞大,大多数是以文本的形式存在的。如何有效处理这些海量数据,从中发现有用的信息成为一个迫切需要解决的问题。文
近年来互联网快速的发展,新兴媒介也不断的涌现,并向移动端蔓延。在智能手机普遍使用的情况下,更是加速了新媒介向移动终端发展的进程。微信作为一款运行在移动端上的社交软件,它
视频会议系统是一个为分布异地的人们提供包括视、音、文、图等多媒体全方位感知的空间环境.它集通信扮布性和视频的真实性于一体,具有明显的优势,因而成为当今计算机领域的
资源弹性部署是云计算的重要特征之一。目前,大部分云资源弹性部署技术仅注重快速调集资源响应负载上升以确保应用性能,而忽视低负载服务器造成的浪费。另外,典型的资源弹性部署
研究人员主要就是针对发电厂的这些需要进行了以下三项工作.(1)为参与竞价上网,提出如何实现商业化运营子系统中的报价参考辅助功能,以便供高层决策者做参考;(2)通过对发电成
学位
该文探讨了Web技术在信息发布方面的整体发展,具体对ASP技术进行研究,并与其他技术加以对比.认为ASP技术能比其他的技术更好的解决信息发布的快捷性与智能性问题, 并提出了两
该文讨论了对象关系数据库的面向对象的特性,如创建基本数据类型,构造复杂数据类型,对继承的支持和对规则的扩展;并介绍了对象关九据库中的查询优化.飞行试验管理系统是一个
该文将设备管理模块从信息管理系统中提取出来,从系统的高度深入研究了设备管理 的内含和性质.就读研究生期间,该文作者利用动态机制和GIS为天津市热电公司开发了一 个设备管