基于高阶关系的lncRNA与疾病关联预测研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:huashaosile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的证据表明,长链非编码RNA(lncRNAs)与多种疾病密切相关。识别有意义的lncRNA与疾病的关联将有助于我们更好地理解这些疾病的分子机制。然而,由于传统生物实验漫长的实验流程和高额的实验成本等原因,使用传统的生物学实验只能推断出有限数量的lncRNA-疾病关联对。因此,开发推断潜在疾病lncRNA关联的计算方法,不仅可以减少研究的时间和成本来为生物实验提供方向,而且可以在lncRNA水平上加深对人类疾病机制的认识。目前大部分lncRNA与疾病关联预测方法往往只把lncRNA和疾病看成简单的直接的二元关系,没有挖掘生物信息领域之间的隐含的间接的高阶关系,这导致这些预测方法预测能力有限。为了克服这个问题,许多研究人员通过引入其他数据源,如lncRNA与miRNA,miRNA与疾病等以提高预测能力,但这些异质数据源的引入往往导致噪声的存在,从而限制预测性能的提升。因此,区别于引入异质数据源,本文通过挖掘高阶关系来提升预测性能。本文从高阶接近性和超图两种方式来实现对lncRNA和疾病的高阶关系进行建模,进而提出了基于高阶接近性的矩阵补全和基于超图双随机游走两种能探究高阶关系的预测方法来预测lncRNA与疾病的关联,具体内容如下:(1)基于高阶接近性的矩阵补全(HOPMCLDA)。在生物学中,与同一疾病相关的lncRNA之间存在直接关系或者间接关系,一种疾病的并发症可能会影响其他疾病的患病率。在上述生物学观察的启发下,本文提出了HOPMCLDA。第一步,依据lncRNA表达相似性矩阵和疾病语义相似性矩阵计算疾病和lncRNA相似网络的高阶接近性矩阵;第二步,用奇异值分解(SVD)对lncRNA和疾病高阶接近性网络进行重构,提取主要特征向量;第三步,构建融合疾病、疾病-lncRNA、lncRNA网络的异质lncRNA疾病网络;第四步,基于异质lncRNA与疾病网络来使用矩阵补全算法计算预测得分。我们将本文的方法与其他五个经典与先进计算方法(GMCLDA,SIMCLDA,DSCMF,BRWLDA和RWRlncD)。结果表明,在LOOCV和5倍CV的测试框架中,本文方法的AUC值分别为0.8755和0.8353±0.0045,这可以表明HOPMCLDA的预测性能更佳。我们还使用了三个案例研究:胃癌(Gastric cancer,GC)、骨肉瘤(osteosarcoma)和肝细胞癌(hepatocellular carcinoma,HCC)来证明HOPMCLDA的实际预测能力。(2)基于超图双随机游走(HBRWRLDA)。在生物学中,相同的lncRNA在不同的疾病中所起到的作用是不尽相同的,不同的lncRNA对同一疾病上的调控作用也是不一定相似。在上述生物观察的启发下,我们通过超图挖掘lncRNA与疾病高阶关系,进而提出了HBRWRLDA。第一步,利用已知的为lncRNA表达相似性和疾病语义相似性来计算lncRNA与疾病的概率交互矩阵。第二步,基于lncRNA与疾病的概率交互矩阵,分别获得lncRNA超图和疾病超图。第三步,根据lncRNA和疾病超图的不同拓扑结构,使用双随机游走算法来揭示lncRNA和疾病的潜在关联。此外,LOOCV和5倍CV的测试框架下,与GMCLDA、LRWHNLDA、PMFILDA、DSCMF、BRWLDA五个计算方法相比,HBRWRLDA获得AUC值分别0.8792和0.8688±0.0037,预测性能表现更好。在使用案例研究来验证HBRWRLDA的预测能力时,HBRWRLDA可以有效预测肾细胞癌(renal cell carcinoma,RCC)、胃癌(gastric cancer,GC)及骨肉瘤(osteosarcoma)。综上,本文基于高阶关系提出的两种预测方法与几种预测方法相比具有较好的预测能力,且能够在实际预测lncRNA与疾病关联中获得良好的结果,具有较好的使用价值。
其他文献
行人重识别(Person re-identification)是一种利用计算机视觉技术进行行人图像检索的技术。随着人工智能技术的兴起,行人重识别技术得到了极大的发展。基于神经网络的行人重识别技术,需要先从各个摄像头中收集大量的行人图像,并对大量的行人图像进行标注。随后利用已标注的行人图像进行深度网络的学习,最终获得一个行人图像的检索器。但这类方法始终面临着各种困难:深度网络的学习需要大量的训练样本
学位
光频率梳由一系列离散等间距的周期脉冲序列组成,由于其频谱谱线数量多,而且谱线频率间隔相同,能够精准的测量未知频率,在激光雷达、光通信、天文学中有着大量应用。在正常色散区基于非线性Kerr效应产生的光频率梳具有平坦性好,泵浦效率高,相干性好等特点。基于非线性Kerr效应产生光频率梳主要有基于无腔光纤/光波导或微环谐振腔两种方式,本文研究了双频激光泵浦无腔非线性光波导基于超连续谱展宽产生光频率梳,以及
学位
离散事件系统是指由离散的事件触发而引起状态转移的一类动态系统模型。了解当前的运行状态对系统安全尤为重要,状态估计的可测性研究是离散事件系统的一个重要研究方向,并被成功应用于自动控制系统。在现实生活中,系统的状态和事件往往具有模糊和不确定的主观性,模糊集引入到自动机为模糊离散事件系统奠定理论基础,在生物医学和自动控制系统中具有广泛应用。本文研究了模糊离散事件系统下的当前状态和初始状态的可测性问题。针
学位
聚类分析是数据挖掘领域中的重要研究方向。在过去的数十年中,出现了大量聚类算法,其中,谱聚类由于其在非线性可分的数据中的优异表现而被广泛应用。此外,随着互联网的不断发展,网络中产生的数据也越来越多,形成大数据。因此,如何将谱聚类算法应用到大数据中,挖掘其中的有用信息变成十分重要的研究课题。然而,谱聚类算法存在严重的可伸缩性问题,谱聚类需要极高的时间复杂度和极高的空间复杂度来计算和存储相对应的拉普拉斯
学位
目的:探讨翻转课堂护理带教对产科胎心监护操作技能的影响。方法:选取2018年至2022年入职产科的新护士为研究对象,在胎心监护操作技能培训中使用翻转课堂护理带教模式,共计50人次。比较翻转课堂护理带教前后新护士的胎心监护知识、操作技能考核评分、对教学模式的认可程度以及学习能力变化。结果:翻转课堂护理带教后,新护士在胎心监护知识、操作技能考核评分高于带教前,学习能力评分高于带教前,差异均有统计学意义
期刊
在传统的图像分类问题中,训练一个模型需要依赖大量完备的标注数据。然而,随着现实世界的数据量不断增长,对数据进行人工标注变成了一项极其繁琐冗杂的工作。零样本学习可以有效缓解上述问题,具体而言,零样本学习可以在没有不可见类图像或视觉特征作为训练输入的情况下,利用有限的语义信息,对不可见类图像进行预测分类。因此,研究零样本学习可以使得算法、模型减少对图像类标签的依赖,减少人工标注数据的时间成本,极大地提
学位
时序行为数据广泛存在于各类应用系统中。如何挖掘时序行为数据中有意义的行为模式,捕捉用户潜在需求,进而提出更好的预测、推荐或运营策略受到了研究者们的广泛关注。本文提出的面向时序行为的潜在状态学习方法致力于实现离散稀疏行为数据的特征表达,在此基础上对用户的潜在状态及其复杂的时序依赖关系进行建模和学习,从而实现更好的时序推荐。然而,时序行为的状态建模和表征学习主要面临着以下三个挑战:(1)用户真实的行为
学位
基于观测数据发现变量背后的因果关系是许多学科所研究的重要问题。其中,事件序列作为一种重要的数据类型,是由连续时间域上的离散事件组成,常以各种行为记录,系统日志,异常告警等形式出现在经济、社会科学、通讯系统等应用场景中。基于事件序列发现不同事件类型之间的因果关系,能够帮助人们进行生成机制分析,根因定位,事件预测等研究。然而基于多变量事件序列数据,发现事件类型之间的因果关系是一项具有挑战性的任务。一方
学位
随着计算能力的提升和控制技术的进步,无人机被越来越广泛地应用于工业生产和日常生活中。路径规划是无人机领域的核心问题之一,多目标监视是路径规划的一个重要应用。群体智能是智能计算的一种,有收敛速度快、计算成本低、优化能力强等优势,在函数优化、旅行商问题、有依赖的优化问题和作业调度等问题上有广泛的应用。将群体智能算法应用于多目标监视的路径规划,有利于提升无人机的路径规划能力,从而提高无人机工作效率,节约
学位
时代在发展,教育也在不断变革。近年来,国家不断发布文件推动教育信息化,微课作为教育信息化的产物,取得了丰硕的发展成果。经分析发现,微课在化学复习领域应用研究较少。2019年新版高中教材发布至今,有关“物质的量”微课研究甚少,而“物质的量”内容是高一学生学习的难点。因此本文以“物质的量”为例研究系列化复习型微课的应用,以期找到有效的复习方法,解决学生复习困境,培养学生良好的自主学习习惯;找到有效的复
学位