面向组学数据网络模式挖掘的整合非负矩阵分解方法研究

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:nomaryo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的发展,生物组学数据呈井喷式出现。对癌症组学数据进行深入研究可以挖掘到癌症发展过程中的重要信息,为癌症的诊断和治疗提供理论依据。癌症组学数据通常具有高维小样本的特点,整合的非负矩阵分解(Non-negative Matrix Factorization,NMF)方法可以对数据进行联合分析,从而发现多种类型数据之间的潜在关联。针对现有整合方法存在的流形学习能力不足、模型同质效应较差和数据异质性融合不充分等问题,本文对整合的NMF方法进行了改进,并将其成功应用于多癌基因组学数据,具体的研究内容如下:(1)为了解决现有模型流形学习能力不足的问题,提出了整合超图正则化非负矩阵分解(iHNMF)方法。使用超图正则化项可以更好地保留多维组学数据的空间结构,有利于保留数据的全局特征。另外,将单一模型扩展为整合模型可以更好地对多维组学数据进行分析,有利于发现数据之间的潜在关联。为了验证iHNMF方法的有效性,首先利用该方法在多癌基因组学数据集上进行了样本聚类和基因共表达网络分析实验。然后,提出了一个新的基因重要性度量指标,对网络中的基因进行筛选。最后,根据现有文献对筛选得到的基因进行了验证并给出了相关生物学解释。(2)为了进一步提高整合模型的同质效应,提出了整合鲁棒结构化非负矩阵分解(iRSNMF)方法。该方法中的结构化项可以使数据中的基础聚类结构更加一致,从而保留多维组学数据的同质性。另外,该方法使用L2,1范数来降低原始数据中噪声和异常值的不良影响。为了验证iRSNMF方法的有效性,本文进行了聚类和网络分析实验并对挖掘到的重要基因和通路进行了分析和验证。(3)为了充分地融合组学数据之间的异质性,提出了整合加权非负矩阵分解(iWNMF)方法。该方法可以同时考虑多维组学数据之间的同质信息和异质信息。为了验证iWNMF方法的有效性,本文进行了多癌样本聚类实验。另外,使用该方法构建了基因共表达网络和功能分组网络,对网络中的重要基因进行了分析和验证。最后,对基因涉及的生物过程(Biological Process,BP)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路进行了富集分析。实验结果表明,本文所提方法的聚类性能要优于其它对比方法。此外,利用上述方法来构建基因共表达网络能够挖掘出癌症发生过程中的关键基因和通路。
其他文献
随着信息化进程的持续发展,无线通信技术在现代社会中的应用越来越广泛。不断涌现的新兴业务、持续增长的用户规模、快速增加的设备数量对无线通信系统网络容量和资源利用效率提出了更高的要求。认知无线电(Cognitive Radio,CR)技术通过对无线通信环境的智能感知,能够实现无线频谱资源的共享和多用户干扰的协调,具有改善通信资源利用率和提升网络容量的巨大潜力。功率控制是认知无线电网络(Cognitiv
随着互联网信息技术的快速发展,数据规模的速度呈指数增长,文本信息出现爆炸性增长,人们几乎被文本大数据所淹没。庞大的文本数量已经远远超出人工所能处理的极限,如何高效地从大量的文本信息中提取出重要而有用的信息来减轻阅读压力是大数据时代需要重视和亟需解决的问题。运用自动文本摘要技术,可以把繁复的文章生成准确的摘要,快速了解文章的主要内容和框架,减轻阅读压力,方便读者准确把握阅读方向并找到需要的内容。基于
海岸带是海洋生态系统和陆地生态系统之间进行物质、能量、信息交换的重要生态系统过渡带,海岸带作为地球表面最为活跃的自然区域和资源环境条件最为优越的人文活动区域,其变化过程与人类的生存和发展有非常密切的联系,对它的研究体现了陆-海-人三大系统交互作用的动力机制。对海滩动力地貌特征进行研究能够更加深入地了解砂质海岸的动力地貌环境,为砂质海滩质量保护提供科学支撑;研究潮间带生物的生物多样性有助于深刻了解潮
经济结构转型导致了部分旧工业建筑闲置等社会问题,旧工业建筑的改造再利用成为当今社会发展过程中的一个重要议题。本论文从旧工业建筑改造角度出发,将设计方案应用于具体社区文化活动中心项目中。本论文以菏泽裘皮厂旧厂房为改造适用对象对当地社区文化中心进行设计研究,第一部分对旧工业建筑和社区文化中心相关理论进行考察研究,并且对国内外旧工业建筑改造为社区文化中心的优秀案例进行分析研究。第二部分对裘皮厂旧厂房建筑
当前,新一轮科技革命和产业变革正加快我国经济发展方式转变,制造业格局面临重大调整,大数据、云计算、边缘计算等新一代信息技术的发展日新月异,为传统制造企业转型升级提供了新方法和新思路。随着新一代信息技术和制造业深度融合,工业数据量呈指数态势增长,为了从海量的工业数据中找出数据蕴含的规律,助力制造企业转型升级,基于工业互联网平台开发数据采集与数据处理系统具有重要的理论意义和实际价值。本文以智能制造企业
阿尔茨海默病(Alzheimer’s disease,AD)是一种退行性神经疾病,一旦患病大概率不可逆。阿尔茨海默病的早期阶段被称为轻度认知障碍(MCI),有高概率转化成AD的风险。计算机辅助诊断是最近AD诊断的研究热门之一,并且作为一种传统诊断方式十分有效的补充手段深得研究人员喜爱。逻辑回归(Logistic Regression,LR)分类器是作为一种强大的二元分类器,是机器学习分类任务的重要
阿尔茨海默病(Alzheimer’s Disease,AD)是一种不可逆的神经退行性疾病,临床主要表现为认知和记忆的缺失,严重影响人们的生活。到目前为止,该疾病没有有效的治疗方法。轻度认知障碍(Mild Cognitive Impairment,MCI)是AD的早期阶段。与认知正常的老年人相比,MCI具有更高的概率转化为AD。因此,准确识别具有高转化风险的MCI患者对于AD的早期预防和延缓疾病的恶
互联网技术的快速发展,大数据时代的到来,随之而来的是网民规模的快速扩增及信息量的急速扩充。一方面,海量的信息满足了人们对生活中各个方面的需求,另一方面,大量混杂的信息使得用户无法及时准确的获取到所需信息,因此,人们在享受着大数据时代带给生活便利的同时也面临严重的“信息过载”问题。在这种情形下,推荐系统的出现成为解决信息过载问题有效的方式之一。推荐系统本质上是一个信息过滤系统,通过对用户历史行为的分
近年来,位置传感技术和无线传感器技术的发展激发了位置感知设备数量的显著增长,基于位置的服务(Location Based Server,LBS)也开始越来越受欢迎。在车联网(Internet of Vehicles,Io V)中LBS应用尤其广泛,车联网中的服务器不断获取大量的位置轨迹信息,这些信息包含用户大量的个人隐私数据,因此对车联网中车辆的轨迹数据进行保护是非常必要的。目前大多数的轨迹隐私保
随着5G、移动计算和智能设备等技术的发展与普及,各个领域涌现出了大量的物联网服务。如何从这些海量的物联网服务中找到符合自己需求的高质量物联网服务成了用户面临的挑战。服务推荐技术可以基于历史服务质量数据为用户推荐高质量的服务。然而,由于物联网服务存在着稳定性差、用户经常移动、重复调用等缺点,传统的服务推荐技术很难直接适用于物联网服务的推荐。另一方面,一个用户通常会调用不同厂家提供的物联网服务,用户调