内含子保留型可变剪切的识别方法和相关特征研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:johndovl1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可变剪切使同一基因因选择不同的剪切位点而产生多个不同的剪切异构体,它是调节基因表达和产生蛋白质多样性的重要机制。随着新一代测序技术的发展,提供了海量的和植物特定组织和生长条件相关的高通量转录组测序数据,使研究者们不但在发生较少可变剪切的植物群体内发现了越来越多的可变剪切事件;而且还发现和动物群体不同,植物群体中主要发生的是内含子保留型可变剪切。目前,从这些庞大的数据中全面的识别出内含子保留型可变剪切及与之相关的特征的研究相对较少。模式植物拟南芥的基因组和转录组数据较其他植物丰富,本研究以它们为数据基础,探索了内含子保留型可变剪切的识别方法,分析了与内含子保留型可变剪切相关的特征,主要工作和结论如下:1)针对植物群体中内含子保留型可变剪切认识不充分,数据信息不完善的问题设计了两种保留型内含子和组成型内含子的识别算法。第一种是根据最新拟南芥基因组注释文件和序列文件,从mRNA和基因组序列比对坐标的角度设计保留型内含子和组成型内含子识别算法。第二种是基于RNA-seq并考虑转录本表达量计算的识别算法,其完整的处理方案包括:CLC数据预处理,gsnap读段定位,cufflinks转录本重构,cuffmerge转录本合并并修正转录本组装,cuffdiff2转录本表达量计算和样本间差异评估;之后重构第一种保留型内含子和组成型内含子识别算法完成两类内含子的识别,同时计算了两类内含子所在的转录本的表达量信息。算法和已有的同类识别算法相比,去除了保留型内含子的冗余记录,修正了组成型内含子的记录,产生了最新的保留型内含子和组成型内含子数据库,包括不同组织和非生物胁迫数据中共识别的4856个保留型内含子(1384个TAIR10注释文件中已识别的和3472个新识别的保留型内含子)和58436个组成型内含子;全新的生物胁迫测序数据中共识别了2262条保留型内含子,其中675条是在TAIR10注释文件中已识别的,1587条是新识别的保留型内含子。2)针对保留型内含子的相关特征识别的问题设计新的复合特征提取算法用于保留型内含子和组成型内含子的分类预测。新的特征提取算法综合考虑了两类内含子的序列结构特征,频繁度差异特征和生物学特征。分别使用随机森林和PSOSVM(作者设计的利用粒子群优化算法优化基于RBF核的SVM参数的分类器)两种分类器对应用了这种新的特征提取算法和其他四种不同的特征提取算法的数据集进行分类预测,实验结果证明新的特征提取算法取得了较好的分类性能。3)针对分类预测性能不理想的问题研究了影响内含子保留型可变剪切识别的关键因子。转录本的表达量是研究内含子保留型可变剪切的一个关键特征,但当我们仅把表达量作为新的特征引入我们的特征集,两种分类器分类预测的各项性能指标均不理想。论文研究了内含子保留型可变剪切的相对表达强度。发生了内含子保留型可变剪切的基因中存在两类剪切异构体,内含子保留型剪切异构体和未发生内含子保留型剪切异构体。相对表达强度就是比较内含子保留型剪切异构体的表达量(和未发生内含子保留型剪切异构体的表达量()的相对强弱,文中用Rirate进行量化。分析发现如果采用强于的标准(Rirate>0)重新划分正例集(RIgzero),再利用随机森林和PSOSVM进行分类预测的准确率分别由0.741和0.653提高到0.928和0.892,最好的AUC(The area under the receiver operating characteristics curve)值达到了0.985,分类预测性能得到了显著提高。实验证明了分析中使用的Rirate是影响内含子保留型可变剪切识别的关键因子。4)针对内含子保留型可变剪切和生物逆境胁迫的关系研究了生物逆境胁迫下发生RIs的显著差异基因。论文首次对接种烟草花叶病毒(TMV)的处理本和抗病毒药物云芝多糖的处理本进行了转录组的高通量测序,识别了健康对照本和两个处理本中所有的内含子保留型可变剪切;分别从四个不同的角度判断发生了内含子保留型可变剪切的基因是否存在不同处理间的显著差异,进而识别出与RIs相关的显著差异基因;通过对这些显著差异的基因进行GO富集分析,发现它们多在新陈代谢过程、应激响应过程、蛋白激酶活性和腺嘌呤核苷酸结合功能中发挥着重要作用。论文中的发现有力地说明了拟南芥正是利用内部的内含子保留型可变剪切机制来调节应对外界生物胁迫造成的压力。5)针对组成型内含子和保留型内含子之间的差异问题研究了拟南芥中保留型内含子有别于组成型内含子的典型特征。论文对比分析了所识别的不同类型数据集中的内含子特征,发现了保留型内含子有显著区别于组成型内含子的特征包括:在3’剪切位点附近(11~52bp)不容易发现剪切分支位点保守基序“YTRAY”;“GC”含量相对较高,剪切位点强度相对较弱,剪切位点两侧序列相似度较高;研究推定拟南芥中的内含子剪切抑制子是富ag/ga-rich基序,像“gaag”,“gaga”,“agag”,“agga”。内含子剪切增强子是含tttt基序(4~5bp)。
其他文献
【目的】观察癌症恶病质的自然发展过程在C26腺癌恶病质动物模型的演变。【方法】将49只近交系BALB/C雄性小鼠随机分为11组,B、D、F、H、J组皮下接种小鼠结肠腺癌Colon26(C26)细
经营性刷信誉行为对电子商务尤其是C2C模式的秩序有巨大冲击。具体可以体现在对信用秩序的扰乱、对竞争者的打压和对消费者知情权的限制,故此有必要以刑法加以规制。然而以非
介绍工程概况、当地水文条件、冷热负荷及生活热水用量、冷热源系统、取排水系统、水处理系统,并对酒店采用水源热泵系统的经济性进行分析,重点介绍取排水系统、水处理技术措
<正>今年以来,我国钢材市场总体上呈现出稳定、协调发展的良好局面。由于国内生产增势强劲,月度产量不断刷新记录,市场新增资源继续保持快速增长,但由于国内需求依然旺盛、增
中国饮料工业协会成立于1993年3月,至今已走过了10年的路程,中国饮料年产量已突破2000万吨大关.
1+X证书制度是一项针对职业教育人才要求的新制度,这项制度强调通用素质培养与专业素质培养并举,对职业院校的办学提出了新的要求和新的挑战。西部职业院校在观念上、校企合
结直肠癌是我国最常见的恶性肿瘤之一,发病率居第四位,并且随着我国饮食结构和环境的改变,其发病率逐年上升。恶性增殖与侵袭能力是影响结直肠癌预后的最主要因素之一。所以研究
介绍雷尼绍RESOLUTE系列光栅应用于机器人,以提高其精度,提供更平稳的速度控制和超强的位置稳定性。
<正>近日,中国汽车工业协会对外发布数据,3月,乘用车共销售209.63万辆,环比增长28.39%,同比增长1.70%。1-3月,乘用车销量呈小幅增长,增速比上年同期有所减缓。3月,乘用车共销
<正>上海教育出版社2009年6月出版16开390页定价48.00元对于中学语文的积弊,他(孙绍振)是英勇的炮手;对于文本分析从操作性系统方法来说,他堪称工程师。——谢冕