论文部分内容阅读
机器学习是一种旨在设计和实现特定算法,使得计算机能够根据经验数据进化自身行为。它隶属于计算机科学中的人工智能范畴,也是近来人工智能学科研究最活跃的子领域。机器学习的研究在计算机视觉,自然语言处理,生物信息学和生物医学等领域有着广泛的应用。稀疏性作为数据的重要特征,可以大为简化数据的表示,减少计算,并且更容易获得对于数据“宏观”特征的把握。在各种实际问题中广泛存在着稀疏性,利用这些稀疏性更好地提高解决实际问题算法的性能,这是机器学习/数据挖掘领域有趣而重要的研究内容。在本文中,我们通过挖掘不同实际问题的特征引出不同的稀疏学习模型。通过回顾作为稀疏学习理论基础的不定线性方程组的稀疏解理论了解到l1约束的优化问题在稀疏学习中所起的作用。并通过线性回归问题为减小方差而进行的特征选择引出LASSO算法。通过LASSO算法在针对群组变量选取,树形结构特征选择以及图上的相关性挖掘任务中的应用介绍了Group LASSO, Tree Group LASSO以及稀疏逆协方差估计。这些广泛应用的稀疏模型是利用稀疏性求解新问题的基础。为了高效地求解不同稀疏学习模型,我们探究了多种方法。传统的坐标下降受到收敛性问题的困扰以及二阶算法需要更大的时间空间开销促使我们寻求迭代中更容易计算的一阶黑盒方法。Nesterov的针对光滑的凸优化问题的O( 1√? )的算法提供了稀疏学习求解的框架。而该框架中需要解决的重要步骤便是向l1球上的投影。我们回顾了当前优秀的枢纽元算法以及零点算法,通过他们的求解变量,求解步骤以及时间复杂度分析阐述了二者之间的等价性,并提出了一种基于两次二分过程的改进的零点算法,在保持求解效率的同时降低了编程复杂度。在传统基于实例的多标记学习中,我们经常陷入选择相似性度量以及邻域大小的困难境地。针对该问题,我们试图建立一个自适应邻域,以避免对于相似性度量以及邻域大小选择。受稀疏表示在人脸识别中的应用的启发,我们通过一个类似稀疏表示的优化问题来确定该自适应邻域,该问题有着同稀疏学习相同的复杂度但有着对于邻域信息更好的解释性。基于该自适应邻域,我们设计的加权和算法能够实现对于多标记数据的分类过程。在公共数据集上的实验显示,自适应邻域算法能够获得比当前state-of-the-art算法更好的性能。