论文部分内容阅读
本文主要研究一些分布式学习算法,一方面在分布式框架下对原有的一些经典算法进行了改进,另一方面对原有的分布式框架进行了改进.一些经典的算法,例如随机权网络(NNRW),它们具有快速学习和逼近能力,可以有效分析样本量较小的数据.但是,当面对高维复杂数据,或者数据储存不止在一台机器上时,这些算法计算就变得缓慢,甚至无法求解.基于此,本文针对解决大数据的分布式学习算法展开了研究和讨论,主要包括基于l1正则化随机权网络的分布式学习算法研究,基于分布式网络的非负矩阵稀疏分解算法研究和基于大规模非负矩阵的分布式学习算法研究.具体工作概括如下:1.我们提出了基于一致平均的l1正则化随机权网络分布式学习模型,旨在发挥随机权网络稀疏性和具有迭代解的优点.虽然l2正则化随机权网络具有形式解,但是面对高维复杂的数据时,它在求广义逆的过程中难以计算,并且容易导致过拟合现象.而l1正则化随机权网络在求解过程中由于l1笵数不可微,存在着迭代解.我们先把高维的数据样本分成若干份子样本数据集,对每一个子样本集,建立l1正则化随机权网络作为局部模型,并利用投影梯度方法来解,最后对得到的所有局部参数进行交互和迭代求解极限值,使得每个局部模型具有相同参数,即所提出的基于一致平均的l1-NNRW分布式算法.算法的收敛性已有证明.实验结果表明,所提出的算法在大规模的数据中具有较好性能,且解具有稀疏性,便于存储.2.针对非负矩阵稀疏分解的问题,我们提出了一种基于分布式网络的非负矩阵稀疏分解算法,试图解决一些大规模矩阵的稀疏分解问题,以及分解后的数据储存问题.其关键点在于把分布式网络的思想融合到非负矩阵稀疏分解的迭代求解上,避免之前的先求分布式网络中各个节点的参数,而后相互交换信息的同步求解.我们先把大规模的矩阵按列进行分割,然后改进已有的解决小规模矩阵分解的算法,将分布式的交互思想结合到矩阵稀疏分解的算法中,从而给出新颖的基于分布式网络的非负矩阵稀疏分解算法.我们也给出了理论上的收敛性证明.实验表明,所提出的算法对大规模非负矩阵的稀疏分解具有更好的精确度和效率.3.针对大规模非负矩阵分解的问题,我们提出了一种着色的分布式学习算法,使得原来的分布式网络具备并行计算的特性,加快计算效率.我们首先利用Welch Powell方法对已经连接好的网络进行着色,然后将大规模非负矩阵进行按列分割成小矩阵块,在相同颜色的节点上并行求解小矩阵的分解模型,最后考虑节点间局部模型的交互.实验结果表明,着色分布式学习算法对大规模非负矩阵分解具有更好的效果.