论文部分内容阅读
在高等真核生物基因组转录过程中,一次剪接即可完成短内含子的去除,而部分较长内含子(>10 kbp)则需通过多次剪接方可去除。多次剪接去除长内含子的过程通常被称为递归剪接。已有研究表明,递归剪接事件与诸多生物学过程及疾病的发生发展有着密切的联系。近年来,关于递归性剪接事件的研究越来越多,研究者已经在果蝇和多种脊椎动物基因组转录过程中发现了递归剪接事件,通过不同的生物信息学方法找到了多个递归剪接位点并进行了实验验证。目前国际上对递归剪接的研究主要集中在递归剪接过程、剪接位点识别及其对生物学过程的影响等方面。但是尚未有比较成熟的识别递归剪接位点的软件,本文针对转录组数据进行递归剪接事件的识别方法研究,并开发了一套识别递归剪接位点的算法流程RSfinder。同时利用RSfinder对卵巢癌组织和癌旁正常组织的转录组数据进行递归剪接位点的识别与分析。以下是本文的主要工作:首先,分析递归剪接位点附近序列特征。本文分别对实验验证的人脑组织的7个基因的8个递归剪接位点、果蝇的14个基因的24个递归剪接位点进行了研究,对这些递归剪接位点上下游序列进行序列比对统计、分析。研究结果发现发生递归剪接现象的三组序列特征,即:剪接位点的保守性、发生递归剪接现象的内含子长度、内含子表达量信息呈现锯齿状。其次,本文开发了一套识别递归剪接位点的算法流程RSfinder。RSfinder对上述已验证递归剪接位点的转录组测序数据进行分析检测的具体步骤如下:1,以基因组碱基序列、基因注释文件为参考,运用fastQC进行质量检测;2,利用TopHat对转录组数据进行比对,得到读段的整体比对结果Sam文件和junction文件;3,通过递归剪接位点特征信息进行分析筛选,得到符合上述特征的潜在递归剪接位点;4,利用序列信息构造生物剪接的亲和性矩阵对递归剪接位点进一步筛选;5,编写的可视化工具RS-fig肉眼识别锯齿状结构、非锯齿结构;6,利用PCCAdaBoost算法对样本进行训练,得到准确率达95%以上的分类器,即得到符合条件的递归剪接位点识别算法流程(RSfinder)。运用RSfinder对Homo sapiens已验证的八个递归剪接位点、果蝇24个位点所在的转录组进行分析检测,比较检测结果,验证算法流程RSfinder的准确性,结果表明RSfinder算法流程性能较好,能够在人脑组织检测到7个(87.5%)递归剪接位点;果蝇中检测到23个(95.8%)递归剪接位点。最后,应用所开发的算法流程对卵巢癌中发生递归剪接事件进行了检测与分析。卵巢癌数据分为两组:卵巢癌组织和癌旁正常组织,每组数据集三个生物学重复。得到的转录组数据利用RSfinder进行分析,预测得到递归剪接位点,分析两组数据集递归剪接位点所在基因的差异性。结果发现卵巢癌组织中发现递归剪接事件、癌旁正常组织未发生的位点共31个,存在于25个基因的25个内含子中;癌旁正常组织存在递归剪接事件、卵巢癌组织未检测到的位点共43个,存在于31个基因的31个内含子内。此外本文还对得到的这两组基因的表达量信息进行了分析。本论文的研究工作,也为递归剪接事件对卵巢癌的影响进行深入研究奠定了一定的基础。