论文部分内容阅读
贝叶斯学习具有可解释性强、鲁棒性好等优点,是机器学习的研究热点。本文基于贝叶斯非参数学习中的Dirichlet过程和层次Dirichlet过程、以及贝叶斯大间隔学习中的伪似然与数据扩充思想对当前若干较新、有挑战性的机器学习与数据挖掘问题进行研究。取得的主要创新成果包括: 1.基于层次Dirichlet过程的非参数贝叶斯半定义学习 有些时候测试数据中可能包含一些训练数据中并未出现过的新类别数据,传统分类模型无法识别新数据类别,而聚类模型又无法充分利用已知类别的监督信息。为了解决这类问题,现有的方法假定测试数据中潜在的未知类别个数是已知的,然而这一假设在大多数情况下往往并不成立。本项研究基于层次狄利克雷过程与隐含狄利克雷分配提出非参数贝叶斯半定义学习模型,该模型在将来自已知类别的测试数据分类到相应类别的同时能够自动推断隐藏在测试数据中的未知数据类别的个数。为进行模型后验推断,给出基于塌缩式吉布斯抽样的求解算法。在各种文本数据集上的大量实验显示所提方法在无需事先指定未知类别个数的情况下与现有的参数化方法表现相当,因而具有非常广泛的应用前景。 2.基于Dirichlet过程的非参数贝叶斯多任务最大间隔分类 本项研究提出一种非参数贝叶斯多任务大间隔分类模型。该模型能够将多个任务自动聚类到最合适数目的任务组,同时允许每个任务组内部的模型之间进行灵活的共享。具体来说,首先展示一种结合大间隔学习和层次贝叶斯模型的简单易行方法,该方法利用了SVM的一种重要变体——PSVM,其损失函数被用来定义一种新颖的似然函数。然后假定每个任务的模型参数由两部分组成:一部分在每个任务组内部被完全的共享,称之为组级参数;另一部分是每个任务特有的针对组级参数的尺度缩放参数。对多个任务的组级参数施加一种狄利克雷过程的先验,对每个任务的尺度缩放参数施加一个均值为一的拉普拉斯先验。最后每个任务的参数由其对应的组级参数和尺度缩放参数的乘积决定。为进行模型推理,给出有效的马尔科夫链蒙特卡洛(MCMC)算法。在地雷检测数据和UCI Yeast数据上的实验表明了所提算法的有效性。 3.基于贝叶斯后验正则化的最大间隔主成分分析 监督降维技术已在寻找预测子空间方面显示出了很大优势。之前的方法很少考虑流行的大间隔准则,因而易于过拟合通常少量的训练数据。这对于那些基于极大似然框架的方法尤其明显。本项研究提出一种基于后验正则化的贝叶斯方法,来结合主成分分析(PCA)和大间隔学习。基于针对大间隔学习的数据扩充思想和PCA的概率解释,所提出的方法可在贝叶斯框架下,同时进行最适合PCA子空间的搜索以及大间隔学习中权重和惩罚参数的自动推断。为了进行高效的贝叶斯近似后验推断(从而能够处理大规模数据),给出一种平均场变分推理算法。在各种各样的分类学习数据上的实验显示,与传统方法相比所提方法能够发现具有更强判别性和预测性的低维空间,从而使算法在未见数据上具有更好的预测能力。 4.面向支持向量学习的贝叶斯大间隔成组特征选择 在许多机器学习的应用当中,成组特征选择(Group Feature Selection,GFS)已被证明是非常有用的技术,因为它不仅可以增强所学模型参数的可解释性,也可以提高模型的预测性能。对于回归和分类问题,现有的成组特征选择模型主要是基于平方损失和逻辑斯特损失,而在支持向量学习(SupportVector Learning,SVL)中被广泛采用的ε-不敏感损失及铰链损失仍然未被引入。利用伪似然和数据扩充的技巧,本项研究提出一种面向支持向量学习的贝叶斯成组特征选择框架。通过贝叶斯推断,该方法可以避免通过交叉验证来选择惩罚参数。更确切的来说,为实现贝叶斯推断,本研究在增广的空间中采用平均场变分方法来推断模型参数和超参数的后验分布。在模拟数据和真实数据集上所做的回归和分类实验表明所提方法比很多最新的方法表现的都要好。