论文部分内容阅读
近年来,随着科学技术的迅猛发展,产生了各行各业都在迅速产生海量数据的社会现象,导致了人们逐渐开始思考该如何最大化且最有效地使用这些数据。机器学习(Machine Learning)与深度学习(Deep Learning)技术异军突起,分类算法作为机器学习与深度学习最典型的应用方式,迅速成为了业界与学术界争相努力的研究方向,该如何建立一个高效普适的分类模型这一问题开始显得意义重大起来。此外,由于计算机处理能力的限制,分布式的并行计算框架(Distributed Parallel Computing Framework)也开始逐渐进入人们的视线,针对不同的算法搭建出最合理的并行计算框架也逐渐成为一个新兴的研究课题。为顺应这些技术需求,本文提出了从设计机器学习改进模型、使用高效率优化方法,到应用优化算法于并行计算的整套完整流程。本文的主要研究是基于机器学习中的监督学习多分类问题。即在有类标的训练集合上建立分类模型,拟合出模型的参数,用于预测未知类标的测试集合上的标签的方法。本文首先提出了一种将类标的量化取值设置为k-1维欧式空间上k个顶点的坐标来建模的方式,并在模型中加入降噪函数与合适的惩罚项,建立了一个新的线性多分类模型。在建立模型之后,本文引用了几个强大的有约束以及无约束的优化算法,对模型进行优化求解。此后,本文还针对算法,设计了并行框架,大大提高了分类器的运行速效率。研究内容包括以下几个部分:(1)本文建立了一个新的针对多分类问题的线性分类器模型。模型中的标签设置方式引入了顶点判别分析法(Vertex Discriminant Analysis,VDA),一种处理多个类别以及超过训练用例的预测因子的标签设置方法,使模型在多分类问题的情形下具有更均匀分布的标签。此外,模型还使用ε-不敏感函数这一常用的降噪函数,使得本文模型对噪声数据下的过拟合现象以及数据采样有误差等问题有着最直观的效果。(2)在模型的优化过程中,本文使用了几个简单且强大的有约束条件与无约束条件的优化算法。本文分别使用了Forward-backward splitting与FISTA算法在无约束条件优化问题中对本文的不光滑函数凸模型进行优化,获得迭代步骤。本文也使用了ADMM算法将本文模型转化为有约束条件的凸模型并进行优化,获得迭代步骤。在数值实验中本文的模型与优化算法获得一些引人瞩目的结果。(3)本文的另一项工作在于将本文采用的模型使用分治法(Divide and Conquer method)的思想将算法的母问题分解成子问题并分治地求解,设计了基于ADMM的并行优化框架,并在MPI与openMP的混合环境下加以实现,这一计算框架获取了可观的计算性能加速提升。