【摘 要】
:
无监督的特征学习是机器学习中一项基础的研究问题,其目标是从大量的无标注数据中学习数据有代表意义的特征表示。为了克服高维数据给数据分析任务带来的挑战,学习数据准确的低维特征表示成为了有效的预处理方案,它广泛应用于数据分类、可视化、以及模式识别等重要领域。过去几十年,无监督特征学习以其重要性受到了广泛的关注并取得了巨大的发展。然而,现有的特征学习方法仍然存在问题。具体表现为监督信息的缺乏导致特征学习方
论文部分内容阅读
无监督的特征学习是机器学习中一项基础的研究问题,其目标是从大量的无标注数据中学习数据有代表意义的特征表示。为了克服高维数据给数据分析任务带来的挑战,学习数据准确的低维特征表示成为了有效的预处理方案,它广泛应用于数据分类、可视化、以及模式识别等重要领域。过去几十年,无监督特征学习以其重要性受到了广泛的关注并取得了巨大的发展。然而,现有的特征学习方法仍然存在问题。具体表现为监督信息的缺乏导致特征学习方法通常仅能够使用数据自身的重构作为监督信息,这样的数据特征表示只包含数据的重建信息,缺乏数据所属类别的判别性信息。优秀的数据特征表示不仅应该包含该数据的本质信息,而且应该同时具有和不同类别数据明显区分的信息,具有数据重建和判别性两方面的完整信息。为了解决特征学习方法存在的问题,本文以聚类任务驱动的无监督深度网络特征学习方法为研究内容,以获取具有数据重建信息和判别性信息的数据特征表示为研究目标,提出了三种深度网络特征学习方法。本文的主要工作与创新点概述如下:(1)针对深度半非负矩阵分解方法(Deep Semi-NMF,DSN)学习数据重建信息不准确以及缺乏判别性信息的问题,受深度学习思想和聚类任务判别性方法的启发,提出相似性保持聚类驱动的非负特征学习方法(Discriminative Deep Semi-NMF network,DDSNnet)。该方法在继承数据特征具有可解释性的基础上不但能够避免每次矩阵分解产生的误差累积,而且还能够通过特殊选择的激活函数约束每层特征表示的非负性,保证最终的数据特征的准确表示。此外,该方法中的统一相似性度量能够使学习到的数据特征表示分布相对于原数据分布的特点尽量保持不变,同时融入相同类别特征分布更加紧密,不同类别特征分布更加分散的判别性信息。实验从聚类性能与可视化两方面验证了DDSNnet方法学习到的数据特征表示既具有准确的重建信息也具有良好的判别性信息。(2)针对自编码(Autoencoder,AE)网络缺乏判别性信息的问题,受谱聚类与深度聚类网络的启发,提出交叉熵聚类驱动的正交特征学习方法(Clustering with Orthogonal Auto Encoder,COAE)。该方法利用正交性正则项对AE网络的特征表示层施加正交约束,使学习到的数据特征表示在保持原有数据良好重建信息的基础上同时具有显著的判别性信息。为了弥补正则项方法约束能力有限的不足,COAE方法通过聚类任务与特征学习任务的联合优化实现对数据特征表示判别性约束的强化。该方法采用基于分类任务思想的统一优化框架使预测类别标签与辅助类别标签更具有确定性,实现具有确定性的预测类别标签对特征学习有效的指导,进一步将相同类别紧密聚集不同类别相互远离的判别性信息融入数据特征表示。实验从聚类性能与可视化两方面验证了数据特征表示既具有准确的重建信息也具有良好的判别性信息。(3)针对基于分类思想的统一优化框架中辅助标签设计与监督信息的鲁棒性不强的问题,受模糊聚类方法与互信息思想的启发,提出了模糊聚类驱动的互信息最大特征学习方法(Fuzzy clustering and extended Mutual information with Auto Encoder,FMAE)。该方法将聚类的预测标签作为权值,通过对特征空间下数据距离度量加权的方式实现聚类任务与特征学习的统一联合优化,不仅避免了辅助标签的设计问题,还融入了更加紧密聚集的判别性信息。此外,该方法中的带参数互信息能够将原始数据作为监督信息,进一步增强了预测类别标签作为判别性指导信息的鲁棒性。实验从聚类性能与可视化两方面验证了数据特征表示既具有准确的重建信息也具有良好的判别性信息。本文工作面向无监督的深度网络特征学习方法,基于聚类任务的思想,针对现有特征学习方法缺少判别性信息的问题,从现有方法的局限性出发,提出了新的特征学习方法,达到了提高数据特征表示质量的目的,使高质量的数据特征表示能够为其它数据分析任务提供有力的支持。
其他文献
“微地图”是自媒体时代中新兴地图的产物,它是面向普通大众的地图,以简单制作、便于传播为核心。为了更好地应用微地图的功能,就需要在完善自媒体时代地图理论的同时,对微地图用户及其行为进行研究,探索快速制图的方法,解决目前制图门槛高的现状。另外,在微地图软件平台的制作过程中,一个合适的用户模型,不仅在软件的开发和运行部分有着清晰的指导作用,而且在后期对于用户个性化的服务更是有着至关重要的作用。本文将结合
异种材料焊接在交通运输、电站锅炉、石化工业及核电厂等行业已被广泛应用,其中奥氏体钢与珠光体钢的异种材料焊接最为常见。然而,珠光体钢与奥氏体钢在进行异种材料焊接时,珠光体钢侧的熔合过渡区内会形成马氏体层,以致异种钢接头的塑形和韧性降低,而且珠光体/奥氏体异种钢接头,在高温环境下长时间服役易发生碳原子的迁移,并且马氏体层的形成也会为碳扩散提供通道,加速碳原子的迁移。通常在高温下服役的珠光体/奥氏体异种
[目的]观察止血散胃管注入治疗上消化道出血疗效。[方法]使用随机平行对照方法,将80例住院患者按抽签法随机分为两组。对照组40例奥美拉唑40mg+100mL 0.9%氯化钠,静滴,1次/d。二乙酰氨乙酸乙二胺600mg+250mL 0.5%葡萄糖,静滴,1次/d。重度出血口服肾上腺素或凝血酶,必要时补充血容量。治疗组40例自拟止血方(三七粉、白及粉、生大黄粉各5g),加100mL 0.9%氯化钠,
城市规模近年来飞速扩大,越来越多的人涌入大城市、定居大城市,造成城市交通严重拥堵长达数个小时。轨道交通以其大运量、高速度、高环保等优点在城市公共交通中占据了重要的地位,承担了城市主要的交通压力。但是,城市轨道交通经常遭受由于大型活动、节假日和恶劣天气等原因导致的突发大客流冲击,突发大客流不仅会让轨道交通站点积聚大量乘客造成安全隐患,而且由于城市轨道交通路网结构,还会导致大客流影响传播至线路上其他站
气隙放电是换流设备中常见的空气绝缘缺陷现象。气隙放电过程产生带电粒子,粒子微观过程构成气体放电的基础,同时,瞬态空间电荷、背景空间电荷对气隙放电具有重要影响。另一方面,换流设备电压工况复杂,因而气隙可能承受直流电压、工频交流电压、谐波电压及交直流复合电压。不同电压条件影响空间电荷分布,进而对放电特性产生影响。为得出复杂电压下气隙放电特性及其变化规律,本文提出从微观角度,研究电荷分布、计算空间电场,
脑卒中,是一种临床上以脑部缺血及出血性损伤症状为主要表征的疾病,具有极高的病死率和致残率,缺血性卒中病人占发病人群的比例高达80%,其致病机理多是由于血栓或栓子引起的。如果闭塞持续5~10分钟以上,闭塞部位周围将会形成特征性梗死灶。随着闭塞持续的时间越长,缺血核心面积就越大持续转变为半暗带,可挽救的神经组织数量将会逐渐减少。就目前的治疗方法来看:主要是通过药物或机械手段取出闭塞物,以恢复受损部位的
二次电子发射是初始电子作用下材料浅表层发生的复杂散射过程,在显微分析和电子倍增领域具有广泛地应用,同时也是诱发空间大功率微波器件微放电现象、粒子加速器电子云效应和真空绝缘失效等问题的主要原因,因此基于表面修饰抑制二次电子发射的研究具有重要的科学意义和应用价值。当前广泛采用的修饰方法包括粗糙化处理构建微/纳米级陷阱和沉积以银、氮化钛、阿洛丁为代表的低二次电子发射系数镀层,然而由于表面氧化、吸附水分子
紫外线(Ultraviolet,UV)是一种重要的环境因子,会导致细胞内活性氧和炎症的积累,直接或间接的影响基因组的稳定性,可引起晒伤,甚至会诱发皮肤恶性肿瘤,如黑色素瘤,基底细胞癌等。血红素氧合酶-1(Heme Oxygenase-1,HO-1)作为一种重要的多功能蛋白,通过上调表达响应紫外线的照射,并能催化降解血红素来发挥抗炎症、抗氧化和抗凋亡等作用。因此,探究紫外线对皮肤细胞中HO-1的调控
背景:MicroRNA(miRNA)是重要的内源性非编码RNA,通过对信使RNA的降解或翻译抑制来控制靶基因的表达,与DNA甲基化相互作用,是信号通路和靶基因之间的关键枢纽。miRNA可以直接参与骨组织形成的各个过程,对不同粗糙度钛表面上成骨分化的人骨髓间充质干细胞(human bone marrow mesenchymal stem cells,hBMSCs)有重要的调控作用。干细胞分化过程中一
随着水环境容量的减小和水资源短缺的日益严重,我国不断提高城镇污水处理厂出水水质标准。目前,很多污水厂出水总氮(total nitrogen,TN)难以稳定达标,造成这一现象的原因有很多,其中很重要的一点是污水厂进水碳源不足导致反硝化不完全。外加有机碳源不仅会增加污水处理成本,而且还有可能造成二次污染,同时也会给污水厂后续的污泥处理处置带来困难。硫酸盐是污水中常见污染物,厌氧条件下硫酸盐还原菌将硫酸