论文部分内容阅读
识别复杂疾病相关的miRNAs已成为生物医学领域一个重要的研究课题,近年来吸引了研究人员的浓厚兴趣。miRNA作为具有转录后调控功能的一类非编码RNA,通过与靶标基因的3-UTR以碱基配对的方式进行结合从而抑制或降解靶基因表达。大量证据显示,miRNA参与了许多重要的生物进程,miRNA的异常表达会引起包括癌症在内的许多人类复杂疾病。挖掘miRNA与疾病之间潜在的关联关系有利于从miRNA层面深入了解疾病致病机制,为疾病早期诊断、治疗预后以及药物设计提供有效辅助。然而使用生物实验的方法识别致病miRNAs需要耗费大量的时间和成本,开发性能可靠的miRNA-疾病关联计算预测方法成为迫切需要。本文旨在利用已有海量生物组学数据,结合目前流行的计算方法构建准确有效的miRNA-疾病关联预测模型,为后续复杂疾病相关的生物实验验证方法提供指导。全文根据不同任务不同场景,针对识别致病miRNAs、挖掘miRNA与疾病之间关联具体类型提出不同算法,并将预测模型应用于肺癌、乳腺癌、结肠直肠癌等复杂疾病中,挖掘相关疾病潜在关联的miRNA候选基因,推测疾病治疗的新线索。本文主要工作概述如下:(1)首先介绍了本课题研究的目的、背景、miRNA与癌症相关研究国内外现状以及存在的主要问题,对miRNA作用机制和调控功能、与课题研究密切相关的数据资源进行了概述,对致病miRNAs预测中相似性网络构建等关键问题进行了归纳分析。(2)基于改进低秩矩阵恢复方法的miRNA-疾病关联预测研究。针对目前已有疾病相关miRNAs预测模型准确度不高,许多基于监督学习的机器学习预测方法需要负样本,而有限次生物实验无法确定miRNA与疾病之间真正不存在关联的情形,导致负样本不存在或难以获取等问题,本文提出了一种基于改进低秩矩阵恢复的方法(ILRMR)来预测miRNA与疾病关联。ILRMR算法整合miRNA功能相似性、拓扑结构相似性和miRNA家族信息重构miRNA相似性网络,整合疾病语义相似性和拓扑结构相似性重构疾病相似性网络,然后融合相似性信息基于RPCA构建miRNA-疾病关联预测模型。ILRMR算法是一个全局预测方法,能同时预测所有疾病相关的潜在致病miRNAs,ILRMR不需要负样本,在样本稀疏时仍能保持可靠的预测性能。交叉验证以及案例研究结果均表明ILRMR算法预测性能优于现有方法。(3)基于正则化框架融合异构组学数据的miRNA-疾病关联预测研究。考虑到现有预测模型在计算miRNA和疾病相似性的过程中过分依赖已知的miRNA和疾病关联信息,在LOOCV时可能造成对性能的过高估计,和重新计算相似性带来的额外开销,以及许多预测模型不能预测孤立疾病相关的miRNAs,针对以上问题,本文基于异构组学数据提出了一种基于正则化框架的信息融合策略(RLSSLP)用于预测致病miRNAs。RLSSLP模型度量miRNA之间的相似性是根据miRNA之间靶基因集合相似程度,不依赖已知miRNA和疾病关联信息。RLSSLP模型充分考虑了疾病-基因、基因-基因、miRNA-基因之间的关联关系,整合正则二乘和边传播算法两个子模型构建高效的致病miRNAs预测模型,并采用特征转换技术提高计算效率。RLSSLP模型是一个全局预测方法,能有效预测孤立疾病关联的miRNAs和新miRNA关联的疾病。十折交叉验证和肺癌、肝细胞癌和乳腺癌相关案例研究结果均表明,RLSSLP方法展现出可靠的预测性能。(4)基于混合受限玻尔兹曼机模型的miRNA-疾病关联类型预测研究。考虑到目前绝大多数方法都只能预测miRNA与疾病之间是否存在关联,关于miRNA与疾病不同关联类型的丰富信息在疾病相关的miRNA预测中没有得到很好的利用,不同类型致病机制引起的miRNA与疾病关联在现有方法里尚不能得到很好的预测。本文提出了一种新的基于混合受限玻尔兹曼机模型的miRNA与疾病关联类型预测模型(HRBM-MD),该模型在一些方面对传统受限玻尔兹曼机模型进行扩展,从miRNA和疾病两个角度构建隐含层单元的混合模型,有效提高了预测准确度。HRBM-MD方法能够有效预测miRNA与疾病之间由遗传学(genetics)、表观遗传学(epigenetics)、循环miRNA(circulating miRNA)和miRNA靶基因相互作用(miRNA-target interactions)四个方面所引起的疾病-miRNA关联类型,有利于对miRNA介导疾病的致病机制进行更深入地理解。交叉验证和案例研究展示了HRBM-MD具有可靠的预测性能。