基于NMF的数据集成方法及在癌症模块挖掘中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:suqingcsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的飞速发展,大规模多类型的组学数据不断更新,生命科学领域积累了大量的相互关联的多组学数据,如基因表达数据、micro RNA表达数据等。癌症作为一种异质性很强的复杂疾病,不同亚型的癌症其发生与发展的生物机制存在差异,癌症的不同类型和不同组学的数据为研究者提供了多种角度,有助于对癌症发生发展的复杂生物过程进行全面研究。因此,如何集成多种类型和组学的癌症数据,从中挖掘出亚型相关的生物分子模块和生物过程,为精确医疗提供指导,是计算生物学科现在面临的挑战。非负矩阵分解(NMF)方法将非负的输入矩阵分解为子矩阵相乘的形式,使输入矩阵分解后的所有分量均为非负值,可以实现维数约减,由于数据的非负性和累加性,该方法可以为结构化的数据提供解释,是一种有效地从整体信息中挖掘出局部信息的方法。其变体已广泛应用于多个领域如模式识别、信号处理、生物信息学等。非负矩阵分解已被拓展到多个输入矩阵的同时分解,是一种集成生物数据的有效模型。本文针对癌症组学数据多类型、高噪声、部分样本分型信息已知等特点,为了挖掘组学数据中的潜在结构,揭示癌症亚型相关的生物分子模块和生物过程,在NMF模型的基础上加入权重约束项以衡量不同输入矩阵在分解中的权重,加入监督约束项以保留已知的样本分型信息,提出一种带权的半监督联合非负矩阵分解模型,并给出求解的迭代过程。首先在人工生成的模拟数据上验证,比较加入约束和不加入约束的分解效果,证明本文提出的权重项约束和监督项约束是具有意义的。然后在真实的癌症多组学数据上应用,分别在TCGA的乳腺癌的多组学数据和单细胞测序的胶质瘤多组学数据中运行本算法,挖掘亚型特异的分子模块和生物过程,通过功能富集和文献验证,证明算法挖掘的模块是具有生物意义的,有助于揭示癌症亚型发生和发展的生物机制。此外本文还利用分解得到的样本低维矩阵中对未知亚型样本标签进行预测并使用临床信息证明其有效性,利用模块中的分子作为特征进行单细胞聚类并证明可以提高单细胞聚类的效果。以上实验表明了本文提出的算法是一种从癌症组学数据中提取具有显著生物意义的亚型特异模式的有效工具。
其他文献
规范个人数据交易最核心的一个问题就是处理好个人数据利用与个人数据保护这两种价值的平衡。个人数据交易与个人数据保护是相辅相成、互动共进的,规范个人数据交易有利于降低个人数据泄露的风险,保护个人数据安全是个人数据交易健康发展的保证。因此本文从介绍个人数据交易的对象和主体出发,对个人数据与个人信息的关系、数据交易平台的法律地位进行了分析。并提出了目前我国个人数据交易存在的数据法律属性不明、个人数据交易法
本文以中国古代印论为研究对象,以“中国古代印论意象批评方法研究”为题,对中国古代印论中意象批评方法的发展过程、运用方式、理论内涵等进行深入研究。意象批评方法最早体现在吾衍《三十五举》中,并一直贯穿于印学理论发展的始终。意象批评方法在运用中有两种典型方式:一是选取单一意象对某一命题进行批评,二是选取多种意象或通过营造一组意象对某一命题进行多方位、多视角的批评。意象批评方法有三条批评指向脉络贯穿中国古
人工智能技术作为当下科技革命的核心内容,无论是在医疗、教育还是创作领域都是炙手可热的话题。半个世纪以来,人工智能技术取得了突飞猛进的发展,而由此带来的社会变革也对各领域内传统的理论和实践带来了冲击。在创作领域,人工智能独立创作能力的发展,使人们意识到创作的主体已经不再局限于人类自身,作为类人类智能的人工智能也可以作为独立的创作主体,创作出与人类作品不相上下的内容。随着大型互联网公司对人工智能创作能
半导体氧化锌(Zn O)材料,因拥有高催化活性、性质稳定等特点,在降解有机污染物方面具有广泛应用。但在光催化降解应用中,纳米Zn O仍存在禁带较宽、电子空穴易复合、光腐蚀及
藤本植物由于对环境有较强的适应能力,能够迅速生长、缠绕攀援树木并覆盖树冠,致使树木不能正常进行光合作用,影响树木的生长甚至导致树木死亡。本研究以五指山市畅好乡低海拔次生林为研究对象,对主要藤本金钟藤和葛藤的生长特性进行观测,测定被藤本植物攀援的支持木生物量结构的变化,并调查伐藤处理对于次生林群落特征的影响,旨在探索藤本植物对次生林群落的影响,为五指山市低海拔次生林群落的恢复和更新提供科学依据。主要
结直肠癌在世界范围内的发病率在男性和女性分别位列第三位和第二位,死亡率分别位列第四位和第三位。结直肠癌已经成为严重危害社会和谐与稳定的公共卫生问题之一,找到有效的
目的:以创伤性股骨头坏死模型大鼠为研究对象,用桃红四物汤干预模型组,观察桃红四物汤对创伤性股骨头坏死模型大鼠Notch1受体的影响,从而阐释桃红四物汤促进创伤性股骨头坏死模型大鼠新血管和骨质新生的机制。方法:将所有的60只SPF级实验大鼠,适应性喂养1周后,按照随机的方法平均分成5个组,分别是桃红四物汤高、中、低三组、模型组以及假手术对照组,每组12只。对桃红四物汤组和模型组进行造模,假手术组切开
落叶松(Larix ssp.)是重要的林木树种,高效稳定的落叶松体胚再生体系能使优良品种快速繁殖,也为生理生化、遗传转化等研究打下基础。体胚不同发育阶段转录组的分析有利于了解胚胎发育的机制。以6月15日和6月25日采集的长白落叶松(Larix olgensis)未成熟合子胚为外植体诱导胚性愈伤组织,胚性愈伤诱导率约30%。愈伤诱导培养基成分为:S培养基+2,4-D 1.0mg/L+6-BA 0.5
随着遥感技术的快速发展,遥感影像的获取已不再是困难,遥感数据的质量和数量都呈指数增长。高分辨率遥感影像的语义分割通过对遥感数据进行加工利用,已经成为人类对地观测的重要手段。近年来,深度学习技术在很多计算机视觉任务取得了优秀的成绩,利用深度卷积神经网络进行图像分割也成为学术界的研究热点。相比于手工提取特征的传统图像分割算法,基于深度卷积神经网络的方法具有更强的特征提取能力,在普通自然图像的分割任务中
钠硫电池(Na/S)以高理论能量密度、充放电效率高、长寿命以及无污染可回收的特点已经受到国内外众多学者的关注和研究。Beta"-Al2O3电解质陶瓷为Na/S电池的核心组件,充当着电解质和隔膜的角色,对Na/S电池的使用寿命以及提升Na/S电池充放电效率都起到关键作用。目前通过传统固相反应烧结制备的多晶beta"-Al2O3材料的beta"相含量普遍低,且晶界和孔隙的存在使Na+载流子的迁移路径冗