基于变分近似的多视图核方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:whbniuniu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多现实问题中的数据可以由多个视图进行描述,多视图学习是研究如何利用数据多视图特性进行建模的机器学习分支。用知识建模现象、用观测更新知识是科学研究中极为重要的做法,而贝叶斯法则为实施这两点提供了理论框架和计算工具。关于多视图数据的知识通常可以分解为两部分,分别是关于各视图内部结构的知识和关于不同视图间关联的知识,其中后者呈现出一种跨任务的共性,并可以被归结为几种多视图假设。视图一致性假设是多视图监督学习任务中最常用的多视图假设,如何将视图一致性假设作为知识进行贝叶斯多视图学习是一个重要的研究问题。在标准贝叶斯框架下,关于数据的知识通常被用作建立模型或是选择模型空间上的先验,然而视图一致性假设很难直接被用于这两点。从建模角度来看,视图一致性是关于预测函数的假设,贝叶斯预测函数依赖模型关于后验分布的期望,难以在建模过程中直接表达关于不同视图预测函数的一致性;从先验选择的角度来看,视图一致性假设依赖于具体数据分布,无法在不使用数据情况下将其表达为模型空间上的分布,使用训练数据选择先验违背了似然原则,容易导致过拟合,使用预留数据则会降低数据的利用效率。此外,进行贝叶斯多视图学习还要面临一个问题,即对于复杂的模型贝叶斯后验的精确推理往往是不可解的,需要进行一些近似。针对贝叶斯多视图学习中面临的问题,本文研究在对后验分布进行变分近似的过程中利用视图一致性假设进行多视图学习。由于近似后验分布对数据的依赖,我们可以充分利用训练数据来衡量视图的一致性,并通过选择合适的变分目标和变分分布族,对不同视图的预测函数施加约束。此外,尽管数据依赖的先验不适合直接用于贝叶斯学习,在PAC贝叶斯框架下,这类先验可以被用于分析算法的泛化性能。本文将上述想法应用于设计和分析多视图核方法。具体地来说,我们提出:软间隔一致多视图最大熵判别(SMVMED):最大熵判别结合了贝叶斯学习和大间隔原则,通过求解一个变分优化问题来学习满足大分类间隔的分类器后验分布。SMVMED对每个视图使用最大熵判别进行建模,并通过修改变分目标关联不同视图的分类间隔以实现视图一致。我们使用高斯过程对SMVMED进行实例化,并提出针对该实例的序列最小优化算法以加速训练。多视图变分稀疏高斯过程(MVSGP):变分稀疏高斯过程使用一组归纳点对高斯过程模型后验进行稀疏近似。MVSGP在此基础上使用一组额外的共享归纳点,通过为每个视图选择在这组共享归纳点上有相同均值的变分分布族,使得不同视图的预测函数满足视图一致。我们使用一个额外的高斯过程模型来学习这组共享归纳点。合成和真实数据集上的实验验证了这一方法能学到更具表达力的共享归纳点,且能使用少量的共享归纳点把握视图间关联。多视图PAC贝叶斯理论:统计学习理论为机器学习算法的泛化性能提供理论分析,PAC贝叶斯理论使用基于关于数据的知识构造的先验和基于算法学到的分类器构造的后验,能够给出算法泛化误差的紧致上界。针对在多视图学习领域中PAC贝叶斯理论的缺失,我们提出利用视图一致性构造假设类上的数据依赖先验,针对多视图核方法进行PAC贝叶斯分析,并将其用于多视图支持向量机。
其他文献
随着电子储能设备需求的不断增长,比传统二次可充电电池具有更长循环寿命和更高功率密度的超级电容器而受到关注。但是超级电容器较低的能量密度阻碍了它们的实际应用。根据公式EA=1/2CV2(EA:能量密度;C:电容;V:工作电压窗口),超级电容器的能量密度可以通过提高电极材料的电容和/或扩大器件的工作电压窗口实现提升。采用高性能过渡金属基材料作为电极材料,组装非对称型超级电容器被认为是提高输出能量密度的
在台风数值模拟中,高分辨率全球数值模式相对于区域数值模式可以更好地捕获大尺度环流,避免侧边界效应,是对精细尺度台风动力学研究的有力支撑。基于SCVT网格的MPAS全球模式,既避免了区域模式边界处物理量的突变,又能在关键模拟区域加密网格,还节省了计算资源,是台风研究方面具有潜力的数值模式。为了将MPAS模式更有效地应用于西北太平洋的台风模拟,本文首先参考GFS模式,评估了MPAS模式对于大气环境场的
城市功能区是城市在发展过程中逐渐形成的居住用地、商业用地、工业用地、公共管理与公共服务设施用地等不同功能区。对城市功能区进行统一协调和合理布局,有助于提高城市土地利用效率,优化资源配置,实现城市全面均衡化发展,整体改善城市的综合实力。识别不同类型的功能区并研究其空间分布特征和相互作用规律,对于把握城市空间结构,制定科学合理的城市规划具有十分重要的意义。传统的城市功能区提取与分析研究主要是使用土地利
浮游植物粒级结构是海洋生态和生物地球化学过程中重要的生理参数,掌握其组成分布有助于理解海洋关键过程中浮游植物的功能和作用。一直以来,浮游植物粒级的研究依靠传统的现场原位调查测量,受制于相对有限的采样区域和环境,而海洋水色遥感具有高时空分辨率和高重访周期的特点和优势,日渐成为观测的重要技术手段,促使浮游植物粒级结构遥感反演在近年间成为海洋生态和地球观测领域的研究热点。在水色组分相对简单的大洋水体中,
河口三角洲是陆海相互作用的关键地带,人口分布稠密,物种多样性丰富,具有重要的社会经济价值和生态价值。同时河口三角洲也是极其敏感的动态地貌单元,其动力地貌格局在外部环境变化下易发生显著转换。尤其在近年来人类活动的高度干预下,入海泥沙通量锐减,河口水沙输运和泥沙源汇过程受到强烈影响,三角洲普遍面临蚀退危机。以高淤积速率闻名的黄河三角洲,在近年来由于入海水沙情势的改变已成为侵蚀速率最快的三角洲之一。黄河
细胞的力学性质是指细胞在力学刺激下所展现出的变形特性,细胞力生物学性质则是指在机械力刺激下细胞的生物学响应特性。在众多研究中,细胞的力学性质和力生物学性质已被视为简单、直接的生物标志,用以指示各类疾病的发生和细胞状态的改变。单细胞通过狭窄微流控通道的变形过程及其诱发的细胞钙响应过程蕴含了丰富的细胞力学性质和细胞力生物学性质等方面的信息。近年来的诸多研究指出,机械力刺激下异常的细胞内钙响应,对特定疾
近几十年来,人类活动导致活性氮排放不断加剧,使环境中活性氮浓度激增,并引发了一系列生态环境问题。作为海陆过渡的关键地带,河口地区氮污染问题尤为突出。微生物脱氮过程(反硝化和厌氧氨氧化)是缓解河口区域活性氮负荷的重要途径。因此,开展河口滨岸环境脱氮过程研究是当今国际上的热点和学术前沿。根据反应基质来源不同,脱氮过程分为非耦合脱氮(NO3-/NO2-直接源于上覆水)与耦合硝化脱氮(NO3-/NO2-源
全球变暖和海平面上升增加了海岸带风暴潮、水涝灾害和海水入侵的风险。杭州湾沿岸是我国遭受风暴潮灾害的典型区域,同时人口和经济高度密集,因此亟需掌握该区极端风暴事件的发生特征。作为我国新石器文化的重要分布区和稻作农业的发祥地之一,该区域文明的发展受到气候、海平面变化等环境因素的限制,例如,举世瞩目的良渚文明在距今约4400 cal yr BP突然发生衰变。在杭州湾滨海平原已发掘的新石器文化遗址中,普遍
随着互联网技术飞速发展,网络视频中用户规模爆发式增长,观看视频内容并对视频进行交流评论成为用户日常生活中的重要部分。在用户对于视频互动方式中,呈现出一种新的交互模式:视频同步评论(弹幕)。视频同步评论呈现方式类似滚动字幕,悬浮在视频画面上,这种互动方式能够极大增强用户的共享观看体验,也为内容提供商和其他决策者(如广告商、投资者、零售商、教育者等)了解即时视频内容和观众的反馈提供了良好的数据支撑。然
分子筛是具有规则孔道和空穴结构的晶体材料,其物质组成的变化可以引起活性位类别的改变,形成不同的催化性能。近年来,中强酸性的高硅分子筛在FT合成以及MTO过程中表现出良好的反应性能。利用分子筛的固体酸性以及高选择性将其与氧化物结合可以得到良好的烃类选择性,如合成气在OX/ZSM-5双功能催化剂上转化获得较高的芳烃选择性。虽然甲醇中间体机理逐渐被接受,但是分子筛在FTH过程以及MTH过程中产物选择性的