论文部分内容阅读
可变剪切使同一基因因选择不同的剪切位点而产生多个不同的剪切异构体,它是调节基因表达和产生蛋白质多样性的重要机制。随着新一代测序技术的发展,提供了海量的和植物特定组织和生长条件相关的高通量转录组测序数据,使研究者们不但在发生较少可变剪切的植物群体内发现了越来越多的可变剪切事件;而且还发现和动物群体不同,植物群体中主要发生的是内含子保留型可变剪切。目前,从这些庞大的数据中全面的识别出内含子保留型可变剪切及与之相关的特征的研究相对较少。模式植物拟南芥的基因组和转录组数据较其他植物丰富,本研究以它们为数据基础,探索了内含子保留型可变剪切的识别方法,分析了与内含子保留型可变剪切相关的特征,主要工作和结论如下:1)针对植物群体中内含子保留型可变剪切认识不充分,数据信息不完善的问题设计了两种保留型内含子和组成型内含子的识别算法。第一种是根据最新拟南芥基因组注释文件和序列文件,从mRNA和基因组序列比对坐标的角度设计保留型内含子和组成型内含子识别算法。第二种是基于RNA-seq并考虑转录本表达量计算的识别算法,其完整的处理方案包括:CLC数据预处理,gsnap读段定位,cufflinks转录本重构,cuffmerge转录本合并并修正转录本组装,cuffdiff2转录本表达量计算和样本间差异评估;之后重构第一种保留型内含子和组成型内含子识别算法完成两类内含子的识别,同时计算了两类内含子所在的转录本的表达量信息。算法和已有的同类识别算法相比,去除了保留型内含子的冗余记录,修正了组成型内含子的记录,产生了最新的保留型内含子和组成型内含子数据库,包括不同组织和非生物胁迫数据中共识别的4856个保留型内含子(1384个TAIR10注释文件中已识别的和3472个新识别的保留型内含子)和58436个组成型内含子;全新的生物胁迫测序数据中共识别了2262条保留型内含子,其中675条是在TAIR10注释文件中已识别的,1587条是新识别的保留型内含子。2)针对保留型内含子的相关特征识别的问题设计新的复合特征提取算法用于保留型内含子和组成型内含子的分类预测。新的特征提取算法综合考虑了两类内含子的序列结构特征,频繁度差异特征和生物学特征。分别使用随机森林和PSOSVM(作者设计的利用粒子群优化算法优化基于RBF核的SVM参数的分类器)两种分类器对应用了这种新的特征提取算法和其他四种不同的特征提取算法的数据集进行分类预测,实验结果证明新的特征提取算法取得了较好的分类性能。3)针对分类预测性能不理想的问题研究了影响内含子保留型可变剪切识别的关键因子。转录本的表达量是研究内含子保留型可变剪切的一个关键特征,但当我们仅把表达量作为新的特征引入我们的特征集,两种分类器分类预测的各项性能指标均不理想。论文研究了内含子保留型可变剪切的相对表达强度。发生了内含子保留型可变剪切的基因中存在两类剪切异构体,内含子保留型剪切异构体和未发生内含子保留型剪切异构体。相对表达强度就是比较内含子保留型剪切异构体的表达量(和未发生内含子保留型剪切异构体的表达量()的相对强弱,文中用Rirate进行量化。分析发现如果采用强于的标准(Rirate>0)重新划分正例集(RIgzero),再利用随机森林和PSOSVM进行分类预测的准确率分别由0.741和0.653提高到0.928和0.892,最好的AUC(The area under the receiver operating characteristics curve)值达到了0.985,分类预测性能得到了显著提高。实验证明了分析中使用的Rirate是影响内含子保留型可变剪切识别的关键因子。4)针对内含子保留型可变剪切和生物逆境胁迫的关系研究了生物逆境胁迫下发生RIs的显著差异基因。论文首次对接种烟草花叶病毒(TMV)的处理本和抗病毒药物云芝多糖的处理本进行了转录组的高通量测序,识别了健康对照本和两个处理本中所有的内含子保留型可变剪切;分别从四个不同的角度判断发生了内含子保留型可变剪切的基因是否存在不同处理间的显著差异,进而识别出与RIs相关的显著差异基因;通过对这些显著差异的基因进行GO富集分析,发现它们多在新陈代谢过程、应激响应过程、蛋白激酶活性和腺嘌呤核苷酸结合功能中发挥着重要作用。论文中的发现有力地说明了拟南芥正是利用内部的内含子保留型可变剪切机制来调节应对外界生物胁迫造成的压力。5)针对组成型内含子和保留型内含子之间的差异问题研究了拟南芥中保留型内含子有别于组成型内含子的典型特征。论文对比分析了所识别的不同类型数据集中的内含子特征,发现了保留型内含子有显著区别于组成型内含子的特征包括:在3’剪切位点附近(11~52bp)不容易发现剪切分支位点保守基序“YTRAY”;“GC”含量相对较高,剪切位点强度相对较弱,剪切位点两侧序列相似度较高;研究推定拟南芥中的内含子剪切抑制子是富ag/ga-rich基序,像“gaag”,“gaga”,“agag”,“agga”。内含子剪切增强子是含tttt基序(4~5bp)。