稳健的特征表示学习方法及应用

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:qgdjyahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据话题备受人们关注。大数据不局限于数据量之大,而在于隐藏在数据背后的数据价值。如何挖掘大数据中存在的规律,为人们提供有价值的信息,是大数据研究领域面临的挑战之一。为在给定的数据样本上准确地进行推理和预测,需要找到数据合适的特征表示,从而有效地对数据的底层结构进行建模。模型应能反映简洁的全局结构,捕捉数据的表现,并对噪声具有较强的稳健性。寻求数据特征表示的前提是现实世界中的大多数数据具有各自丰富而特有的结构,而如果数据分布是任意的,那么特征表示学习将是不可行的。同时,现实中采样的数据总是有限而且通常含有噪声,这就需要解决如何选择和设计合适的模型和正则化技术。本文通过结合图嵌入,低秩分析,自表示学习,类内与类间关系方法,以描述样本关系为核心,提出了两种无监督特征表示学习方法和一种监督特征表示学习方法,并将其应用在模拟数据、图像数据和生物数据中。通过与最先进的方法对比,验证了本文提出的特征表示方法的有效性。本文主要工作包含以下几个方面:1.提出基于低秩图优化的多视角数据维数约简(Low-Rank Graph Optimiza-tion for Multi-View Dimensionality Reduction,LRGO-MVDR)。基于 图的降维方法在分类和聚类等任务中得到了广泛关注和应用,然而,大多数该类方法只适用于一个视角中的数据。虽然研究者们提出了各种基于多视角的降维算法,但其中使用的图构造策略没有充分考虑到噪声和多个视角间的不同重要性,这将会大大降低算法的性能。LRGO-MVDR方法首先以单个视角的数据样本构建相似度矩阵,并基于构建的多个相似度矩阵构造了一个低秩共享矩阵,以及分别对应于每个视角潜在的噪声的稀疏误差矩阵。其次,通过学习自适应非负权向量来探索各视角之间的互补性。此外,基于交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),提出了一种有效的优化策略。最后,基于低秩共享矩阵采用图嵌入技术对数据进行降维,得到了关于数据特征新表示。2.提出稳健的内积正则化无监督特征选择(Robust Inner Product Regularized Unsupervised Feature Selection,RIRUFS)模型。该模型利用自表示学习描述样本间的相似度关系,以样本相似度关系和样本标签指示向量的差异构造谱聚类模型,并将自表示学习、谱聚类和特征选择结合到统一的框架中。这样,RIRUFS可以很好地揭示数据的底层多子空间结构,并迭代学习最优相似矩阵和标签矩阵。其次,通过在目标函数中引入内积正则化项,使得我们所选择的特征具有独立性和低冗余性。此外,提出了一种有效的迭代更新优化算法来求解RIRUFS模型。此模型得到的特征选择矩阵能够反应出数据的特征重要程度,因此按照重要程度进行特征选择可以忽略对聚类性能影响较小的特征和噪声,起到对噪声的稳健性作用。3.提出了一种新的基于类的局部特征选择(Class-Specific Guided Local Fea-ture Selection,CSGLFS)模型。该模型源于高维数据的每个类样本构成的区域都有独特的最优判别特征子集。现有方法简单地为所有类选择相同的特征子集来表示高维数据。CSGLFS方法中,特征子集学习了局部的变化,使得高维数据在最优特征子集对应的投影空间上更加清晰的描述了类内样本和类间样本的关系。我们还出了适合于此方法的弱分类器来描述测试数据与每个类的相似性,更加准确的对测试数据分类。此外,我们的CSGLFS方法被有效地表示为一个线性规划问题,极大的简化了求解过程。通过观察所选择特征的数量对模型过拟合问题讨论。对于分类问题无关的特征,我们以低概率选择该特征,并且分类准确率在会随着维数的增加达到一个稳定值。
其他文献
测土配方施肥是以土壤测试和肥料田间试验为基础,根据作物需肥规律,在施入有机肥料的基础上,提出氮、磷、钾和微量肥料的施入时间、方法和数量。本文介绍了建平县自然、气象条件和果园施肥存在问题、果实的营养特点,阐述了测土配方施肥有关技术等。
课堂是实施素质教育和新课程改革的主阵地。而创建和谐高效的课堂教学就要以教研组建设为突破口。本研究是帮助教师提高教学研究水平的一种切实可行的途径。教研组在校本研究中起着至关重要的作用,它是学校基层的管理实体,是学校的主力军,也是提高教学质量的催化剂。因此,加强教研组建设,充分发挥教研组作用,从而打造出高效课堂。教研组活动应尽可能多地针对学生知识掌握,进行方法与技巧点拨,能力训练与提升,思想引领与激励
蝗虫是昆虫纲Insecta、直翅目Orthoptera、蝗总科Acridoidea昆虫的统称,是一类重要的农牧业害虫。因其分布广泛、食量大、食性广、繁殖能力强、迁移速度快,成群的蝗虫可对农牧业产生巨大危害。蝗虫肠道中栖息着大量的微生物,这些微生物与宿主相互作用,相互影响,形成一种协同进化的关系,在此过程当中,微生物与微生物之间也形成了多种多样的种群结构以及生物学功能。研究蝗虫对纤维素的消化及肠道微
里德堡原子既具有相对较长的寿命,又具有长程的原子间相互作用,因此成为了量子计算和量子模拟最有希望的候选者之一。无论是里德堡阻塞效应,还是里德堡反阻塞效应,都已经在量子信息处理中被广泛研究。在此基础上,非传统里德堡泵浦机制可以提供不同于里德堡阻塞和反阻塞的效应,即处于相同基态的原子保持稳定,处于不同基态的原子共振激发。在本文中,我们主要研究基于里德堡原子的非传统里德堡泵浦机制,结合开放系统的有效动算
反褶积、Q补偿、谱白化、小波变换等方法在提高地震资料分辨率的同时往往会放大噪声,降低地震资料的信噪比。由于地震随机噪声服从高斯分布且其本身并无方向性,因而在Shearlet域可将有效信号与随机噪声分开。通过Shearlet变换将地震信号转换到Shearlet域,对Shearlet域系数进行合理的补偿后,再做Shearlet反变换,可实现对地震资料的提高分辨率处理。结合Shearlet变换的这两个特
古人云:"亲其师,信其道。"让每个学生都感到老师喜欢他,或者说做出喜欢学生的样子,是很有必要的。学生喜欢老师了,才有可能向老师倾吐心事,才会把专注的精神放在老师的课上,才能真正实现师生关系的和谐。相反,师生之间彼此谁也看不惯谁,相互只能生出厌恶,老师会不问青红皂白地训斥学生的所有过失,学生则会视老师为"敌人",给老师贴上"恶人"的标签。如何让学生感觉到老师对他(她)的喜欢,愿意亲近老师呢,我
期刊
随着现代科学信息技术的发展,教育和心理评估的测试逐渐由传统的纸笔考试(paper-and-pencil tests)转变为基于计算机平台的测验(computer-based assessments)。随着计算机化测验的广泛应用,记录并呈现学生在题目上的反应过程的信息变得十分容易。学生在题目上表现的作答信息即反应过程数据,被记录到计算机后台的日志文件中。反应过程数据包括反应时间数据,行为过程数据,以
大规模多重检验的问题产生于许多科学研究领域。例如,在全基因组关联分析(GWAS)中,通常需要进行数以万计的检验以寻找与复杂疾病或性状相关联的单核苷酸多态性(SNPs)。一些其它的例子包括:神经影像数据分析[72]、微阵列数据分析[51,52]、空间数据分析[82]等等。到目前为止,一些多重检验方法已经被广泛地应用于众多科学领域。然而,在大规模多重检验中仍然存在一些棘手的问题需要解决。首先,日益产生
翅二型是昆虫种内形态分化的常见现象,广泛存在于双翅目、半翅目、鞘翅目以及直翅目等昆虫类群中,主要包括“天生型翅二型”和“落翅型翅二型”两类。翅型分化是昆虫适应环境变化而产生的生存应对策略,这种形态发育可塑性一直是众多昆虫学者关注的焦点,探究昆虫翅型分化的分子生物学机制可为理解昆虫适应性进化提供科学解释。现有研究多集中在飞虱、蚜虫等“天生型翅二型”的少数昆虫种类中,对于直翅目和“落翅型翅二型”昆虫的
蛋白质是一种有机大分子,是生命的物质基础,是构成细胞、承载生命活动的基本有机物。在蛋白质翻译过程中,氨基酸相互连接形成肽链,肽链经过螺旋、卷曲、折叠,形成前体蛋白。然而前体蛋白不具有活性,只有通过一系列的翻译后加工及修饰,才能获取生物学功能,这种化学修饰叫蛋白质翻译后修饰。蛋白质翻译后修饰类型多种多样,例如在蛋白质中加入各种官能团,化学键或者其他肽链等,蛋白质翻译后修饰在细胞功能和生物进程中起着重