【摘 要】
:
信息瓶颈(information bottleneck,IB)方法具有良好的理论基础和较强的数据分析能力,自被提出以来便得到信息编码、机器学习、图像处理、模式识别等领域研究者的关注。然而,随着大数据时代的到来,数据往往以不同来源、模态、空间等多路信息的形式出现,并且多路信息之间呈现出显著的异构特性。如何有效地处理日趋复杂的多源异构数据是IB方法研究面临的主要问题,也是IB方法研究的发展趋势。因此,
论文部分内容阅读
信息瓶颈(information bottleneck,IB)方法具有良好的理论基础和较强的数据分析能力,自被提出以来便得到信息编码、机器学习、图像处理、模式识别等领域研究者的关注。然而,随着大数据时代的到来,数据往往以不同来源、模态、空间等多路信息的形式出现,并且多路信息之间呈现出显著的异构特性。如何有效地处理日趋复杂的多源异构数据是IB方法研究面临的主要问题,也是IB方法研究的发展趋势。因此,开展IB方法在多源异构数据中的多路信息处理方面的研究具有重要的理论意义和应用价值,能够进一步拓展IB方法的应用范围,将IB方法推向新的研究阶段。本文针对传统IB方法无法处理多源异构数据的问题,提出多路信息瓶颈(multi-way information bottleneck,多路IB)方法,从多种特征融合、异构特征集成、多任务协作和跨模态公私兼顾四个层面出发,对其相关模型及算法展开研究。主要研究成果如下:(1)针对单一特征无法捕捉到完整数据信息的问题,提出一种基于特征协作的信息瓶颈(feature collaborative information bottleneck,FC-IB)模型。首先,将数据模式的抽取视为数据压缩的过程,通过最大化地保持压缩模式与多种特征变量之间的互信息,构建FC-IB模型的目标函数。其次,采用数据压缩过程中的信息损失作为数据模式抽取的判定条件,并从理论上证明FC-IB模型的目标函数能够得到局部最优解。实验表明,FC-IB算法能够有效地处理数据的多种特征,性能明显优于已有单特征和多特征学习方法。(2)针对数据多种特征之间的异构问题,提出集成信息瓶颈(consensus information bottleneck,CIB)模型。首先,提出基于集成学习的信息度量方法,量化异构特征间的相关性。其次,通过最大化数据多种特征和高层聚类划分之间的关联性,构建CIB模型的目标函数。最后,采用顺序“抽取-合并”优化策略,保证该目标函数收敛到局部最优解。实验表明,CIB算法能够抽取出数据中更加合理的模式结构,其性能明显优于已有的多视角聚类算法和聚类集成算法。(3)针对传统数据分析方法忽略多个相关数据源之间关联性的问题,提出基于信息共享的多任务信息瓶颈(multi-task information bottleneck,MTIB)模型。首先,提出自凝聚信息最大化模型构建多个任务之间的共享特征空间。其次,将多任务聚类问题形式化为最小信息损失函数,一方面尽可能将源数据进行压缩,另一方面最大化地保存模式结构与多任务间的共享信息。最后,提出一种轮转式“抽取-合并”策略保证目标函数收敛到一个局部最优解。实验表明,MTIB算法明显优于传统的单任务聚类算法和典型的多任务聚类算法。(4)针对现有跨模态数据分析方法仅依赖模态间的共享信息,忽略各模态自身的重要信息的问题,提出跨模态的公私兼顾信息最大化(share-private information maximization,SPIM)模型。首先,提出混合单词模型和聚类集成模型构建跨模态数据的公有信息。其次,提出基于信息论的统一化目标函数,在数据分析过程中兼顾跨模态数据的公有和私有信息。最后,采用顺序“抽取-合并”程优化SPIM模型的目标函数,保证其收敛到一个局部最优解。在6种跨媒体数据上的实验结果表明SPIM算法的优越性。
其他文献
近年来,状态依赖时滞微分方程在电动力学、人口增长、经济学、工程技术、神经网络、网络拥塞控制等诸多领域得到应用.然而,与常数时滞微分方程不同,由于状态依赖时滞微分方程(SD-DDEs)的解空间具有较弱的光滑性,使得对其进行的理论研究面临了巨大挑战.这也使得对状态依赖时滞微分方程(SD-DDEs)的基础理论研究变得更加复杂.目前,关于状态依赖时滞微分方程的动力学和分岔的解析研究方法十分缺乏.因此,有必
本文主要研究了时间依赖相空间中定义的扰动发展过程的拉回l-吸引子和拉回l-指数吸引子关于扰动参数λ ∈∧的稳定性.首先,给出拉回l-吸引子关于扰动参数λ ∈ ∧在Hausdorff半度量意义下的上半连续性判定定理,在此基础上,使用贝尔纲定理建立了拉回l-吸引子的剩余连续性准则,即在对称的Hausdorff度量意义下,拉回l-吸引子在参数空间∧的某剩余子集中处处连续的判定准则,并且使用Dini定理证
本文利用反谱变换方法研究几个连续和离散可积方程在无穷直线上的相关问题,并给出它们的孤子解.这几个问题包括TD方程的非零边界问题,两分量推广Ragnisco-Tu方程的衰减边值问题以及Tzitzeica方程的零边界问题.反谱变换方法的关键步骤是对非线性可积方程的线性谱问题进行谱分析.本文所研究问题的一个难点在于有的方程所涉及的谱空间为多叶Riemann面,需要先对谱空间进行改造,然后在新的谱空间中,
面对日益严重的能源短缺和环境污染问题,研究和发展新型能源材料具有非常重要的意义。而热电材料可以通过载流子和声子的输运实现热能和电能之间直接转换,主要应用于温差发电和制冷。与传统压缩制冷技术相比,热电器件具有体积小、无污染泄露危险、无机械运动装置等优点,在空间电源和制冷技术领域一直发挥着不可替代的作用。在众多热电材料中,Bi2Te3是被研究最多、应用最广、室温附近性能最好的的一种热电材料。近年来,采
本文利用经典的和推广的Darboux变换方法研究了Hermite对称空间上的四个多分量非线性演化方程,获得了常数背景下的孤子、呼吸子和怪波等局域波解,并借助于Mathematica软件对这些精确解进行了动力学分析.这四个方程具体为:Hermite对称空间AIII上的AB系统,以及Hermite对称空间CI上的AB系统、导数非线性Schr(?)dinger方程和Fokas–Lenells方程.第二章
一、卵泡期长效GnRH-a长方案与黄体期短效GnRH-a长方案的临床特征及妊娠结局的比较研究目的探讨卵泡期长效GnRH-a长方案与黄体期短效GnRH-a长方案的临床应用特征及妊娠结局方法回顾性分析郑州大学第一附属医院生殖医学中心2014年1月至2016年10月行体外受精—胚胎移植治疗的6114个周期的患者作为研究对象。其中A组:卵泡期长效GnRH-a长方案2705例;B组:黄体期短效GnRH-a长
由于排序论在运筹学中的重要性,排序问题从不同的角度引起了越来越多学者的关注.为了让排序问题和现实生活更紧密地联系起来,多代理排序、多指标排序以及工件具有约束限制等一系列排序模型被学者们广泛研究.在排序论的研究中,研究者们一般用“工件”表示任务或者订单,用“机器”表示可利用的资源.在本学位论文中,我们主要研究了工件具有加工位置上限及完工截止期的单机排序问题.其中,工件Jj具有加工位置上限kj是指工件
器官移植是治疗终末期器官疾病的最有效的治疗措施。器官移植可以明显改善患者生活质量,提高生存率,但是移植术后的排斥反应仍是阻碍移植物及移植患者长期生存的主要原因。目前预防和治疗排斥反应的主要手段仍是应用免疫抑制剂,不可否认,强有力的免疫抑制剂是移植成功的基石,目前免疫抑制剂虽能有效的抑制急性排斥反应,但是仍不能从根本上解决移植物的慢性排斥问题,目前临床上应用的免疫抑制剂均没有特异性,在确保移植物成活
生物医用镁合金具有良好的可降解性、生物相容性和力学相容性,是具有发展潜力的可降解血管支架材料之一,近年来成为生物材料研究的热点。但在生理环境下,镁合金表面存在内皮化过程缓慢和降解速率较快的问题阻碍了镁合金血管支架在临床上的应用。本文系统研究了生物镁合金表面与具有快速内皮化效果的生物分子涂层的作用规律及机制,为选择具有快速内皮化功能的生物涂层提供理论支撑。由于表面结构及表面与生物分子涂层作用的复杂性
d0磁是近几年人们发现的一种新型磁性,它可以通过非磁性原子掺杂在材料中诱导出磁性。随着维度和尺寸的降低,量子限域、表面和界面效应使低维材料表现出许多新奇的量子特性。低维系统中实现可控的d0磁性在自旋电子学中有着非常好的应用前景。本文基于第一性原理的密度泛函理论,在砷烯、IVA-VA族纳米带、多层石墨烯中,研究了其d0磁性的产生机理,调制机制和以此为基础自旋器件的输运性质。主要内容如下:(1)系统研