论文部分内容阅读
正则化路径(regularization path)方法是统计机器学习中一种有效的参数选择方法,该方法可以得出正则化参数所有的可能取值以及对应优化问题的解,在l1范数最小化(l1-norm minimization)和支持向量机(Support Vector Machine,SVM)的参数选择中发挥着重要作用。正则化路径方法主要利用了活动集(active set)方法追踪KKT(Karush-Kuhn-Tucker)最优条件,当数据集中包含重复、近似或线性相关的数据时,在追踪过程中可能会遇到奇异问题。现阶段,国内外针对正则化路径方法的奇异问题提出了很多解决方案,其中,随机扰动加载方法最为简单,不需要其他额外操作,但该方法仍然存在以下问题:1)该方法通过修改每个样本数据来保证每次迭代中只有一个索引被移入或移出活动集,而在实际问题中,样本数据的值是不断变化的,因此选择合适的扰动值具有一定的难度;2)对于高维的数据集,需要添加扰动项的数量往往十分庞大,这使得随机扰动对整个解路径的影响较大。针对上述问题,本文围绕l1范数最小化和支持向量机的参数选择,提出一种新型的基于随机扰动的正则化路径奇异问题处理方法,主要研究内容如下:在l1范数最小化的参数选择方面,提出了一种新型的基于随机扰动的l1范数最小化正则化路径算法。该算法在优化问题中引入一个小的随机扰动向量来避免奇异问题,无需修改观测矩阵的值,克服了难以选择合适扰动值的缺陷,显著减小了添加的随机扰动对整个解路径的影响。实验结果表明,所提算法能够有效解决l1范数最小化正则化路径中的奇异问题,在求解带约束的l1范数最小化问题时,该算法与原始正则化路径算法相比在训练时间上有很大优势。在SVM的参数选择方面,提出了一种新型的基于随机扰动的支持向量机正则化路径算法。该算法在SVM原始问题中添加一些随机扰动标量来避免出现奇点,而不是直接修改每个数据点的特征向量,实现更为简单,克服了难以选择合适扰动值的缺陷,可以显著减小添加的扰动项对解路径的影响。实验结果表明,所提算法可以有效避免支持向量机正则化路径的奇异问题,能够正确拟合出SVM的整个解路径,同时其算法性能优于现有算法。