论文部分内容阅读
在生物体内,转录形成的RNA依据其是否直接参与指导合成蛋白质(或多肽)可被简单地分成两类:蛋白编码RNA(mRNA)和非编码RNA(ncRNA)。起初人们普遍认为大多数ncRNA是“垃圾RNA”。随着对ncRNA作用机制和功能的深入研究,发现在很多重要的生命活动中均有ncRNA参与,如DNA复制,RNA剪接,蛋白质翻译,基因组防卫等。而且通过对人类基因组以及疾病机制的研究,人们发现不仅基因与人类复杂疾病的发生和发展密切相关,ncRNA的表达失调和异常也会导致各种复杂疾病的产生。因此,预测ncRNA与复杂疾病之间的关系以及识别复杂疾病的生物标记物,对于进一步了解ncRNA的作用功能以及疾病的预防和治疗有着重要意义。miRNA是真核生物中一类重要的内源性调控ncRNA。成熟的miRNA以碱基互补(完全或不完全)配对的方式与目标mRNA的3’端的非翻译区(Untranslted region,UTR)结合,抑制该靶标的翻译从而使基因的表达沉默。研究表明,在胚胎早期发育、病毒防御、细胞增殖、造血过程、细胞凋亡等一系列生命进程中均有miRNA参与,并且miRNA的异常调控是导致肿瘤等复杂疾病产生的重要原因,所以,识别与复杂疾病相关的miRNA是了解复杂疾病产生原因的一个重要方向,有助于预防、诊断和治疗复杂疾病。然而以生物学实验识别、验证与疾病有关的miRNA面临诸多困难,比如miRNA短序列溶解温度的差异性、同家族miRNA序列的相似性均会导致实验结果产生较多的偏差甚至错误。此外,面对海量的miRNA数据,通过生物学实验识别miRNA与疾病的关系将会耗费较大的人力和物力。因此,鉴于上述所面临的诸多挑战,本文利用miRNA功能相似性以及癌症表型相似性,借助实验证实的miRNA和癌症之间的关系,预测miRNA和癌症之间的关系。鉴于miRNA主要是通过与靶基因的3’端UTR区域进行互补配对而发挥作用的,本文使用两个目前比较通用和可靠的靶标预测工具TargetScan、miRanda对miRNA的靶基因进行预测,然后根据两个miRNA靶基因集合的重合度刻画miRNA的相似性。同时,借助医学主题词表,并以语义相似性构建癌症的相似性矩阵。最后,结合miRNA和癌症的已知关系,得到对应的邻接矩阵,并基于癌症相似性网络、miRNA功能相似性网络构建回归预测模型,从而预测与134种癌症相关的miRNA。主要研究结果如下:1、通过对结肠癌、胃癌、食道癌以及肝癌的实例研究,发现一致性得分前50的miRNA中,分别有45,41,39和41个miRNAs被实验证实与对应癌症有已知关系,并且4种癌症中未被证实的5、9、11以及9个miRNAs被认为是癌症相关的潜在miRNA。结果表明,构建的预测模型不仅能够有效识别癌症相关的miRNA,而且能够预测与癌症相关的潜在miRNA。2、通过对度较大的miRNA进行功能分析(与miRNA有潜在关系的癌症数量称之为度),发现一些度较大且与癌症有重要关系的miRNA,如,mir-664a和mir-4789。研究表明,mir-664a与34种癌症有已知关系,是癌症重要的调控因子。此外,对mir-4789靶基因进行KEGG通路富集分析,发现mir-4789靶基因在癌症通路中显著富集。以上结果表明,度越大的miRNA与多种癌症相关的可能性越大。研究表明miRNA和lncRNA的表达失调都是导致疾病产生的一个重要原因,并且lncRNA是ceRNA机制的重要参与者,能够以竞争者的身份误导miRNA远离其靶标,降低miRNA对其靶标的调控影响。当前研究主要关注单分子生物标记物的识别,而复杂疾病的产生不仅仅是由单个分子的功能障碍引起的,而且往往是由相关调控网络失调导致的。因此,本文基于当前ncRNA及疾病机制的相关研究,着眼于预测癌症相关miRNA-lncRNA互作关系的生物标记物。本文采用155653对实验证实和预测的miRNA-lncRNA相互作用关系作为基础关系,并利用1046miRNAs和12727lncRNAs表达谱数据构建了患者个体特异的miRNA-lncRNA调控网络(Indicidual-specific miRNA-lncRNA network,ISMLN)。然后利用所有癌症患者个体的ISMLN得到基础的 miRNA-lncRNA 网络(Basic miRNA-lncRNA network,BMLN),通过分析 155653对miRNA-lncRNA互作关系在基础miRNA-lncRNA网络中是否差异变化,根据重要性得分(Significance Score),得到了候选miRNA-lncRNA关系对。为了进一步筛选潜在的miRNA-lncRNA边生物标记物,利用候选的miRNA-lncRNA互作关系作为特征,并以其在癌旁样本和肿瘤样本中皮尔逊相关系数的差值作为特征值,利用随机森林(Random Forests,RF)分类算法,区分癌旁样本和肿瘤样本,然后根据这些候选miRNA-lncRNA互作关系的特征重要性,筛选潜在的miRNA-lncRNA边生物标记物。本文重点识别了乳腺癌的miRNA-lncRNA生物标记物,主要研究结果如下:1、将边生物标记物(miRNA-lncRNA)和点生物标记物(miRNA或lncRNA)的分类结果进行比较,发现当分别取两类生物标记物的前5个特征对癌旁样本和肿瘤样本进行分类时,miRNA点生物标记物平均准确率达到96.26%,最高准确率为98.32%;lncRNA点生物标记物平均准确率达到98.09%,最高准确率为99.42%;miRNA-lncRNA边生物标记物平均准确率达到99.23%,最高准确率为99.96%。由此可见,此时两类生物标记物的预测准确率相差无几,边生物标记物稍有优势。2、进一步选取了点和边生物标记物的后5个作为特征进行分类,发现miRNA点生物标记物的准确率为40.16%,lncRNA点生物标记物的准确率为54.05%,而miRNA-lncRNA边生物标记物的准确率仍能高达91.26%。由此可见,筛选的miRNA-lncRNA边生物标记物相对于点生物标记物包含更多的生物学信息,具有更高的稳定性和准确率。3、通过分析潜在生物标记物中miRNA和lncRNA在癌旁样本和肿瘤样本中表达水平的变化情况,发现本文提出的方法能够识别非差异表达的生物标记物。此外,该方法还能够识别癌症特异的生物标记物。