贝叶斯非参数与大间隔学习若干算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:dingzhiyoulan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯学习具有可解释性强、鲁棒性好等优点,是机器学习的研究热点。本文基于贝叶斯非参数学习中的Dirichlet过程和层次Dirichlet过程、以及贝叶斯大间隔学习中的伪似然与数据扩充思想对当前若干较新、有挑战性的机器学习与数据挖掘问题进行研究。取得的主要创新成果包括:  1.基于层次Dirichlet过程的非参数贝叶斯半定义学习  有些时候测试数据中可能包含一些训练数据中并未出现过的新类别数据,传统分类模型无法识别新数据类别,而聚类模型又无法充分利用已知类别的监督信息。为了解决这类问题,现有的方法假定测试数据中潜在的未知类别个数是已知的,然而这一假设在大多数情况下往往并不成立。本项研究基于层次狄利克雷过程与隐含狄利克雷分配提出非参数贝叶斯半定义学习模型,该模型在将来自已知类别的测试数据分类到相应类别的同时能够自动推断隐藏在测试数据中的未知数据类别的个数。为进行模型后验推断,给出基于塌缩式吉布斯抽样的求解算法。在各种文本数据集上的大量实验显示所提方法在无需事先指定未知类别个数的情况下与现有的参数化方法表现相当,因而具有非常广泛的应用前景。  2.基于Dirichlet过程的非参数贝叶斯多任务最大间隔分类  本项研究提出一种非参数贝叶斯多任务大间隔分类模型。该模型能够将多个任务自动聚类到最合适数目的任务组,同时允许每个任务组内部的模型之间进行灵活的共享。具体来说,首先展示一种结合大间隔学习和层次贝叶斯模型的简单易行方法,该方法利用了SVM的一种重要变体——PSVM,其损失函数被用来定义一种新颖的似然函数。然后假定每个任务的模型参数由两部分组成:一部分在每个任务组内部被完全的共享,称之为组级参数;另一部分是每个任务特有的针对组级参数的尺度缩放参数。对多个任务的组级参数施加一种狄利克雷过程的先验,对每个任务的尺度缩放参数施加一个均值为一的拉普拉斯先验。最后每个任务的参数由其对应的组级参数和尺度缩放参数的乘积决定。为进行模型推理,给出有效的马尔科夫链蒙特卡洛(MCMC)算法。在地雷检测数据和UCI Yeast数据上的实验表明了所提算法的有效性。  3.基于贝叶斯后验正则化的最大间隔主成分分析  监督降维技术已在寻找预测子空间方面显示出了很大优势。之前的方法很少考虑流行的大间隔准则,因而易于过拟合通常少量的训练数据。这对于那些基于极大似然框架的方法尤其明显。本项研究提出一种基于后验正则化的贝叶斯方法,来结合主成分分析(PCA)和大间隔学习。基于针对大间隔学习的数据扩充思想和PCA的概率解释,所提出的方法可在贝叶斯框架下,同时进行最适合PCA子空间的搜索以及大间隔学习中权重和惩罚参数的自动推断。为了进行高效的贝叶斯近似后验推断(从而能够处理大规模数据),给出一种平均场变分推理算法。在各种各样的分类学习数据上的实验显示,与传统方法相比所提方法能够发现具有更强判别性和预测性的低维空间,从而使算法在未见数据上具有更好的预测能力。  4.面向支持向量学习的贝叶斯大间隔成组特征选择  在许多机器学习的应用当中,成组特征选择(Group Feature Selection,GFS)已被证明是非常有用的技术,因为它不仅可以增强所学模型参数的可解释性,也可以提高模型的预测性能。对于回归和分类问题,现有的成组特征选择模型主要是基于平方损失和逻辑斯特损失,而在支持向量学习(SupportVector Learning,SVL)中被广泛采用的ε-不敏感损失及铰链损失仍然未被引入。利用伪似然和数据扩充的技巧,本项研究提出一种面向支持向量学习的贝叶斯成组特征选择框架。通过贝叶斯推断,该方法可以避免通过交叉验证来选择惩罚参数。更确切的来说,为实现贝叶斯推断,本研究在增广的空间中采用平均场变分方法来推断模型参数和超参数的后验分布。在模拟数据和真实数据集上所做的回归和分类实验表明所提方法比很多最新的方法表现的都要好。
其他文献
作为一种新兴的、面向Intemet的分布式计算模式,面向服务的计算为构造松耦合、跨组织的集成应用提供了更好的使能技术.Web服务作为当前最主要的一种服务实现技术,目的是为Int
Web服务以其标准化、松耦合、跨平台的特性,被广泛应用到企业内部的业务流程集成中。但是Web服务无法应用于动态性很强的环境,无法动态发现系统中可用的Web服务,因为集中式的UDD
学位
互联网异构的语义Web服务需要协同工作以满足复杂的应用需求。已有的对Web服务组装的研究,多限于顺序结构的组装方式。这种简单的一维线性组装方式不能满足较复杂的应用需求和
随着Internet的普及和计算机网络技术的迅速发展,依靠网络进行科学合作研究成为现代科学研究的新方式,而通过网络进行科学合作研究就离不开协同交流工具,即时消息系统由于轻便易
学位
随着汽车技术、无线通信技术和传感器网络技术的日趋成熟,车联网的发展逐渐走上了快车道。车联网数据上传作为支撑车联网发展的核心技术之一,受到了学术界和工业界的广泛关注。
测试程序的自动生成技术在现代通用型微处理器和大规模硬件系统的验证工作中发挥着主要的作用.如何随机生成大量而且高效的测试程序成为亟需解决的问题.我们将测试程序的生成
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。软件复用活动包含两个相关的阶段:可复用软件资产的生产阶段和基于可复用软件资产的应用系统开发阶段。领域
在计算机科学领域内,数据流是指数据随着时间不断到达而形成的一种形态。典型的例子如微博时间线、信用卡交易数据和传感器数据等,这些数据具有速度快、规模大、种类多等特点,如
工业自动化和信息技术的不断发展,为设计统一开放的通信协议、构建信息和控制的一体化网络提出了新课题。工业以太网是将以太网技术应用于工业控制系统,根据工业控制需求改进
随着信息技术的普及,网络在我们的日常工作和生活中扮演着越来越重要的作用。但是伴随着纷繁复杂的网络应用的涌现,各应用间缺乏一个统一的权限管理系统所带来的负效应,也越来越