论文部分内容阅读
针板先验(Spike and Slab Prior)是一种用于鼓励连续变量稀疏性的先验概率。和常见的l1模正则化方法通过最小化零点不可导的代价函数以得到稀疏解的做法不同,针板先验使用一种特殊的二分量的高斯混合模型,对变量的零或非零属性进行直接建模。配合概率建模中常用的近似推断方法,针板先验不仅仅可以用来鼓励变量的稀疏性,亦可以对变量之间涉及到零或非零属性的复杂关系进行建模。本文将对针板先验进行研究,并探索它的三个应用:首先,本文将针板先验用于稀疏逆协方差矩阵估计。和l1模正则化方法相比,提出的使用针板先验的模型可以得到更为稀疏,并且预测性能更高的逆协方差矩阵。通过赋予针板先验的参数以超先验并利用贝叶斯近似推断技术,可以避免交叉验证,从而极大的降低了模型选择的难度。其次,本文将针板先验用于在协同过滤系统里选择动态用户,即需要使用多变量对其兴趣变化进行建模的用户。和l21模正则化方法相比,使用针板先验的模型不仅仅可以对用户的动态/静态属性进行判断,同时还提供了对判断的肯定程度的估计。提出的动态/静态混合模型不仅可以用来对用户的兴趣变化进行分析,同时在以RMSE为指标的评分预测任务中也获得了很好的性能。再次,本文将针板先验用户子空间聚类。在提出的层次化模型里,针板先验作为连接样本类标号和重建矩阵之间的桥梁,被用于限制不在同一子空间内的两个样本所对应的重建系数的大小。这样的限制在一定程度上减轻了样本重建模型对子空间独立假设的依赖。在人工合成的数据集和真实数据集上,和主流的基于样本重建的方法相比,提出的模型表现出优异的性能。在提出的三个应用里,针板先验的不可替代性越来越高:对于逆协方差矩阵估计问题,尚可使用l1模正则化的方法得到稀疏的逆协方差矩阵的估计;对于在协同过滤系统里选择动态用户的问题,亦可使用l21模正则化的方法,但是这样做无法得到对动态用户判断的肯定程度的估计;在子空间聚类问题里,针板先验作为连接样本类标号和重建矩阵的桥梁,其作用已经难以被其他鼓励稀疏的方法所取代。