论文部分内容阅读
在信息时代的今天,统计学习理论在诸如自然科学,工程以及金融等各个领域发挥着愈来愈重要的作用。作为一个研究领域,它为机器学习算法提供理论支持。广义地说,统计学习的目的是从样本中学习函数结构或者数据的内在结构。通过引入核方法,数据被映射到高维的特征空间中,进而可以应用各种方法来研究其内在的联系。本论文中,我们主要在统计学习理论的框架下,讨论几种不同的基于核的统计学习理论算法。首先,我们研究了在样本具有依赖关系情形下的q-范数正则化最小二乘回归算法。针对样本序列呈现弱相互依赖关系并且满足α-混合条件以及惩罚项为q-范数正则化子的情形,我们对于最小二乘正则化回归算法给出了比较精细的误差分析。这里我们考虑的q的取值范围为(0,2]。通过运用覆盖数来衡量空间复杂度,我们以a-混合条件,逼近误差的假设以及再生核希尔伯特空间的方式给出了学习理论的阶。其次,我们讨论了系数正则化的回归算法。我们研究了在依赖于样本的假设空间里,lq-正则化最小二乘回归算法的统计学习表现,此处1≤q≤2。一般来说,依赖于样本的假设空间中的算法往往表现出更多的灵活性。通过运用Steping Stone的研究技巧,我们给出了一个统一的误差分析方法。其中,为了提高采样误差的阶,我们引入了经验覆盖数来衡量假设空间的复杂度。同以往结果相比,我们得到了更好的研究结果。具体来说主要体现在以下几个方面:一,在适定的条件下我们得到了明显较为快速的学习理论阶。更具体地说,我们所得到的范化误差的收链阶是O(m-θ)类型的收敛阶,其中θ可以充分接近于1,这在统计学习理论中被认为是最优的;二,我们的结果对于q=1时的情形同样成立;三,同以往结果相比,我们是在更弱的条件下得到上述更强的结论。最后,我们考虑了基于核的成对排序算法。对于成对排序问题,我们首先分别比较了几种不同的研究模型。在本文中,我们所采用的是一种基于选择的两阶段排序模型。但是相比较于以往的基于选择的两阶段排序模型而言,我们所采用的模型又是有所不同的。这种不同主要体现在所采用的采样方式的不同。在排序过程的第一个阶段,我们首先通过把排序问题转化为分类问题来学习-个选择函数。在这一阶段,通过由排序问题到分类问题的转化,我们还可以推导出一些常见的学习结果如范化能力等。对于排序过程的第二个阶段,为了得到一个记分函数,我们设计了一个相应的优化算法。