流形正则化非负矩阵分解方法研究及在组学数据中的应用

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:anwencheng2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高通量测序技术的发展产生了大量的生物组学数据,这些数据中往往包含着生物发展过程中的重要信息。单细胞RNA测序(Single-cell RNA sequencing,Sc RNA-seq)技术的快速发展使生物学家们可以在分子水平上对基因表达数据进行研究。Sc RNA-seq数据的出现也为组学数据的异质性研究提供了可能,对这些数据进行挖掘研究对疾病的诊断、治疗、预防以及探索细胞的分化过程有着重要意义。非负矩阵分解(Nonnegative Matrix Factorization,NMF)方法作为一种有效的大规模数据处理方法得到了广泛的关注,使用该方法可以对高维小样本的生物组学数据进行有效的降维处理。然而,传统的非负矩阵分解方法没有考虑到数据内在的流形结构和数据噪声对算法性能的影响。因此,本文基于生物组学数据中的Sc RNA-seq数据,针对现存非负矩阵分解方法存在的不足之处进行补充完善,具体研究内容包括以下三部分:(1)针对生物组学数据中不同细胞种群边缘模糊及固有的流形结构等特点,提出了自适应总变分超图正则非负矩阵分解方法(ATV-HNMF)。首先,将自适应总变分方法引入到NMF模型中,对边缘数据和平滑数据分别进行强化或去噪处理,可以保留细胞特征以及减少噪音干扰。然后,使用超图正则项编码多个样本点之间的高阶几何关系,深入挖掘数据中的流形结构。最后将该方法应用到细胞亚型区分、网络构建以及标记基因选择中,从而对分子水平的细胞研究提供有效的帮助。(2)针对单个聚类算法降维维度选取不确定的问题,提出了一种集成总变分图正则非负矩阵分解方法(ANMF-CE)。该方法使用总变分图正则非负矩阵分解模型作为集成学习框架的基本学习器。总变分项可以自适应学习数据矩阵的局部特征,对不同类型的边缘数据选择对应的处理方案;图正则项则可以考虑样本之间成对的几何信息。进一步通过集成学习框架可以有效的捕获数据的全局结构,并且获得基于多个聚类结果的预测矩阵,然后通过共识函数将预测矩阵集成为最终的结果。最后,将该框架应用到单细胞测序数据中以提高细胞亚型的辨别能力,同时选取更有意义的标记基因。(3)针对现存的非负矩阵分解方法没有充分利用数据内在几何结构的问题,同时考虑了相似样本与非相似样本之间的关系,提出了相似与非相似正则化非负矩阵分解方法(SDCNMF)。一方面,与流形正则化约束相似,相似性正则化项保留了数据空间中距离较近的相似样本之间的成对几何结构,使高维空间中的相似样本的低维表示更接近。另一方面,在目标函数中引入非相似性约束项,将数据空间中距离较远的不相似样本引入到算法的迭代更新中,能够最大化原始数据矩阵的信息利用率,使非相似样本在低维表示中彼此远离。最后将该方法应用于基因表达数据中进行聚类和标记基因的选择,有利于了解细胞间的异质性。实验结果表明,本文提出的方法比已有模型更具优势,可以获得更好的聚类结果,在网络构建、标记基因鉴定方面也有真实的生物学意义。
其他文献
当前,新一轮科技革命和产业变革正加快我国经济发展方式转变,制造业格局面临重大调整,大数据、云计算、边缘计算等新一代信息技术的发展日新月异,为传统制造企业转型升级提供了新方法和新思路。随着新一代信息技术和制造业深度融合,工业数据量呈指数态势增长,为了从海量的工业数据中找出数据蕴含的规律,助力制造企业转型升级,基于工业互联网平台开发数据采集与数据处理系统具有重要的理论意义和实际价值。本文以智能制造企业
阿尔茨海默病(Alzheimer’s disease,AD)是一种退行性神经疾病,一旦患病大概率不可逆。阿尔茨海默病的早期阶段被称为轻度认知障碍(MCI),有高概率转化成AD的风险。计算机辅助诊断是最近AD诊断的研究热门之一,并且作为一种传统诊断方式十分有效的补充手段深得研究人员喜爱。逻辑回归(Logistic Regression,LR)分类器是作为一种强大的二元分类器,是机器学习分类任务的重要
阿尔茨海默病(Alzheimer’s Disease,AD)是一种不可逆的神经退行性疾病,临床主要表现为认知和记忆的缺失,严重影响人们的生活。到目前为止,该疾病没有有效的治疗方法。轻度认知障碍(Mild Cognitive Impairment,MCI)是AD的早期阶段。与认知正常的老年人相比,MCI具有更高的概率转化为AD。因此,准确识别具有高转化风险的MCI患者对于AD的早期预防和延缓疾病的恶
互联网技术的快速发展,大数据时代的到来,随之而来的是网民规模的快速扩增及信息量的急速扩充。一方面,海量的信息满足了人们对生活中各个方面的需求,另一方面,大量混杂的信息使得用户无法及时准确的获取到所需信息,因此,人们在享受着大数据时代带给生活便利的同时也面临严重的“信息过载”问题。在这种情形下,推荐系统的出现成为解决信息过载问题有效的方式之一。推荐系统本质上是一个信息过滤系统,通过对用户历史行为的分
近年来,位置传感技术和无线传感器技术的发展激发了位置感知设备数量的显著增长,基于位置的服务(Location Based Server,LBS)也开始越来越受欢迎。在车联网(Internet of Vehicles,Io V)中LBS应用尤其广泛,车联网中的服务器不断获取大量的位置轨迹信息,这些信息包含用户大量的个人隐私数据,因此对车联网中车辆的轨迹数据进行保护是非常必要的。目前大多数的轨迹隐私保
随着5G、移动计算和智能设备等技术的发展与普及,各个领域涌现出了大量的物联网服务。如何从这些海量的物联网服务中找到符合自己需求的高质量物联网服务成了用户面临的挑战。服务推荐技术可以基于历史服务质量数据为用户推荐高质量的服务。然而,由于物联网服务存在着稳定性差、用户经常移动、重复调用等缺点,传统的服务推荐技术很难直接适用于物联网服务的推荐。另一方面,一个用户通常会调用不同厂家提供的物联网服务,用户调
随着高通量测序技术的发展,生物组学数据呈井喷式出现。对癌症组学数据进行深入研究可以挖掘到癌症发展过程中的重要信息,为癌症的诊断和治疗提供理论依据。癌症组学数据通常具有高维小样本的特点,整合的非负矩阵分解(Non-negative Matrix Factorization,NMF)方法可以对数据进行联合分析,从而发现多种类型数据之间的潜在关联。针对现有整合方法存在的流形学习能力不足、模型同质效应较差
随着生活水平的提高,人们的物质需求基本得到满足,安全需求日益凸显,建立温情社区,是提高居民安全感的有效方法,在老旧社区改造过程中,注重空间安全感的营造,能够加强居民之间的情感联系,更能提高居民的幸福感。论文对曲阜市沂河小区进行了多方面调研,使用针对该小区居民的随机问卷、深入访谈等方法,对沂河小区的物质及非物质现状进行调研。研究发现沂河小区物质环境破败、公共空间不足、物业管理混乱、居民类型复杂、居民
情感分析作为挖掘文本语料中用户情感倾向的方法,在当今社会的各个领域有着广泛应用。随着计算机技术的发展,人们不再满足于获取文本语料的粗糙情感倾向,而是希望得到基于属性或功能的细粒度情感倾向。因此,细粒度情感分析逐渐成为该领域的热点研究内容。数据规模扩大,情感语料库构建为词嵌入神经网络应用于细粒度情感分析提供了有利条件。基于双向Transformer编码器模型(Bidirectional Encode
随着物联网(Internet of Things,IoT)的发展,终端设备的数量也在迅速增加。设备会产生大量数据,这些数据具有多样性、实时性等特点。为缓解传统的云计算压力,边缘计算应运而生,它将数据处理下沉至设备边缘附近,可以实时处理靠近终端用户的数据,并且智能分流云任务。区块链技术的去中心化、防篡改和匿名性可以为边缘计算提供新的可信计算环境,同时边缘计算为区块链的可扩展性提供了可能,有助于打破区