基于主成分分析与图嵌入框架的无监督维数约简研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sxxwmb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的快速发展,许多科学领域中获取和存储的数据量呈现指数级别增长,如图像数据、生物特征数据和网页数据等,因此,维数约简技术已成为数据挖掘与机器学习研究中最重要的方向之一。由于数据的标注过程要花费大量的时间精力,使得无监督维数约简算法在实际应用中更加广泛。主成分分析(PCA)和基于图(Graph-based)的降维技术是两种最常见的无监督维数约简算法。但是PCA并不能有效处理小样本问题中的离群点,造成数据协方差矩阵是一个不稳健的估计量。此外,基于图的降维技术将原始数据的属性归结为图的构造及其嵌入形式,因此图的好坏直接影响到降维性能的优劣。然而,传统的图降维技术通过学习固定的初始图来执行降维过程,存在诸如近邻参数选择、鲁棒性差以及判别性不足等问题。本文围绕主成分分析和图降维技术进行研究,主要成果有:(1)将信息论中熵(Entropy)的概念引入PCA,设计了基于判别信息的鲁棒主成分分析(RPCA-DI)算法。RPCA-DI通过构建基于熵正则化的样本描述模型,揭示样本点与主成分空间和非主成分空间的隶属关系,利用隶属关系描述数据的子空间结构特征,通过突出属于不同空间数据之间的可分性从而有效剔除噪声和异常样本点的影响。(2)提出了基于可分性的自适应加权主成分分析(SAW-PCA)方法。采用模糊c均值(FCM)来突出可靠样本与噪声点的可分离性。通过引入模糊因子来分析数据隶属不同空间的程度,突出数据在不同空间潜在的可分性,最后结合理论证明进一步构建出自适应加权模型,实现对数据潜在可分性的模糊描述与主成分矢量的自适应学习和组合优化。(3)通过构造两个邻接图来代表具有数据相似性和多样性的原始结构来解决图矩阵无法反映真实数据结构等问题,并在对应的拉普拉斯矩阵上添加秩约束以构建一种新颖的自适应图学习技术,即局部敏感的判别式无监督维数约简(LSDUDR)算法。(4)将自适应图学习和特征学习集成到统一框架中,提出了一种新颖的基于核对齐的判别式无监督维数约简(KaUDDR)算法。首先将两个内核定义为投影数据内核和相似性内核,通过测量投影数据内核和相似性指标内核之间的一致性来有效地捕获数据的本质结构特征。其次,同时进行图学习和降维过程,以保证所提算法中图学习的最优性。
其他文献
免疫诊断技术作为疾病分析的重要手段,一直是生命科学研究的重点。成本低廉、操作简单、结果准确的免疫诊断技术一直是研究者和产业界努力的方向。基于微流控芯片的免疫诊断具有分析时间快、灵敏度高、高通量检测等优点,但由于其制作难度大、成本高,导致实际推广难度很大。如何实现微流控芯片更容易的制造和更低的成本以向实际应用推广,是目前微流控芯片所面临的巨大困难。本论文为实现上述目的,以毛细管作为微通道的载体,研制
准确测量离水辐亮度(Lw)是正确解释水中光学特性并验证海洋水色研究中的大气校正方案的关键。在现场测量Lw的各种方法中,天光遮蔽法(Skylight-blocked approach,SBA)是唯一可以直接测量Lw的方案。然而,与 SBA 系统相关联的遮光锥将对所测量的Lw引入自阴影效应,这需要被校正以得到精确的Lw测量。已有研究提出了针对SBA的自阴影校正模型[1],但该研究建立在蒙特卡洛模拟研究
电极材料的表面性质对微生物电化学体系中产电细菌的初始粘附和后续的生物膜形成至关重要,改善微生物在电极上的初始粘附行为会提高电化学系统的稳定性及输出功率。因此,本研究基于碳毡电极材料(Carbon felt,CF),利用氧化石墨烯(Graphene oxide,GO)浸渍和氨基化反应制备了三种改性材料(CF-GO、CF-NH2、CF-GO-NH2),深入研究了表面润湿性及正电性对两种微生物 Shew
结节性甲状腺肿(简称“结甲”),是临床上最为常见的甲状腺疾病。随着我国逐年发病率的升高,发病人群约高达6%-7%,且约10%的结甲患者存在癌变的风险。因此结甲已成为我国临床重点关注的甲状腺疾病。祖国医学多认为结甲病机属“气滞、血瘀、痰凝”,其本质是肝郁气滞。临床上目前西医治疗结甲的方法主要包括甲状腺激素治疗或手术治疗,但尚无治疗结甲的特效药。因此寻找新的治疗策略尤为重要,本论文通过应用代谢组学技术
衰老是生物体随年龄增长,各组织、器官、系统的结构和功能逐渐衰退的复杂过程,衰老细胞分泌衰老相关分泌表型(senescence associated secretory phenotype,SASP),包括炎症细胞因子、生长因子和趋化因子等,SASP相关因子表达升高会增加细胞合成转运蛋白质的压力,导致未折叠蛋白积累增多,进而诱发内质网应激(endoplasmic reticulum stress,E
目的:孤独症谱系障碍(ASD)与多种脑白质神经纤维束损伤有关。弥散张量成像(DTI)能测量神经组织中水分子弥散运动趋势,帮助神经纤维束重建及评估纤维束及其组成成分的完整性。本研究旨在评估ASD患者重要白质神经纤维束受损情况,分析DTI弥散指标改变与疾病临床量表的相关性。方法:依据DSM-5诊断标准,并经过ADI-R及ADOS-2辅助评估,纳入年龄小于18岁的ASD患者33人,以及年龄智商匹配的的正
目的:通过对一例多囊肝合并多囊肾患者及其家系进行全外显子组测序,为先证者做出准确的基因诊断,探讨该病在家系中的遗传方式,对突变位点进行人群分析,扩展中国人PLD致病基因谱,为遗传咨询和基因诊断提供理论依据。方法:1.收集一例家族史明显的多囊肝合并多囊肾患者,进行家系调查并收集家系内14名直系亲属临床数据及外周血标本,绘制家系图谱。2.对该家系14名研究对象进行亲缘关系确认,选取先证者(Ⅱ-2)、先
研究背景和目的:冻结步态是一种常发生于帕金森病晚期的阵发性步态障碍,其特征是突发的运动中断和启步不能,常常导致高跌倒风险,目前尚无有效、特异的治疗方法。帕金森病冻结步态的病理生理机制尚未被完全研究清楚。基于体素的形态学分析(voxel-basedmorphometry,VBM)技术能够定量计算出局部脑组织的改变,已被用于探索帕金森病冻结步态的病理生理机制,但这些研究的结果并不完全一致,目前尚无统一
柔性干式电极能够解决Ag/AgCl湿式电极易使皮肤过敏、无法长期监测和传统干式电极无法与皮肤贴合紧密等诸多问题,从而具有广阔的应用前景。本文提出利用激光加工方法制备出具有仿生微针阵列的柔性干式电极,分别对其力学性能、电学性能进行研究,并对其结构进行优化。主要研究内容如下:1、设计了一种具有仿生微针阵列的柔性干式电极。在对比柔性基底材料的基础上,重点介绍了柔性基底的制备及导电性能研究。以金边龙舌兰植
多形性胶质母细胞瘤是中枢神经系统中恶性程度最高的肿瘤,预后极差,即使经过手术切除并以放疗和化疗为辅助手段,患者的中位生存期依然仅为15-16个月,且术后发病率很高。尽管人们对其发生发展的机制已有一定的了解,但是还有待更深入地研究。目前很多研究发现,环指蛋白RNF2会促进多种肿瘤的形成,已有文献指出,在U87细胞中敲低RNF2蛋白可以抑制细胞增殖、促进细胞凋亡,同时增强其对放射的敏感性,但是RNF2