论文部分内容阅读
随着基因组学、转录组学、蛋白质组学、代谢组学等各种“组学”技术的相继产生,标志着后基因组时代的到来,为全面了解生物学系统和机制提供了前提条件。但由于干旱胁迫调控机制复杂,就目前单纯研究某一单一组学数据已经很难满足其系统生物学越来越高的研究期望,故需要整合多组学分析来弥补某一单一组学中缺失或不可靠的信息。从多分子水平层次出发,系统研究基因、m RNA、蛋白质和小分子间的相互作用,揭示作物响应逆境胁迫的分子机理,为生物信息学辅助抗逆农作物品种分子育种提供新思路。主要是从基因组与转录组、转录组与蛋白组等不同组学生物关联分析出发研究。使用RNA-Seq转录组分析技术,确定主要农作物受干旱胁迫的富集基因。使用同源分析,从种属层次对受干旱胁迫的富集基因进行整合,从系统生物学角度阐述逆境调控机理。使用基于序列分析算法,预测抗旱富集的直系同源基因的分子生物学和植物生理学上特征。最后基于机器学习算法对同源基因的生理生化数据进行抗逆性预测建模。研究的主要工作如下:1)通过RNA-Seq数据分析技术,发现水稻、玉米、小麦这些抗逆调控的富集基因。采用有参转录组分析策略,挖掘抗旱主要农作物的RNA-seq数据,通过差异表达分析、GO和PATHWAY富集分析,确定每个物种受干旱调控基因的富集情况。2)通过基因序列比对分析和进化分析整合作物的富集同源基因,从种属层次阐述抗旱机理。使用序列比对分析筛选相似度较高的序列,同时结合系统进化树的邻接法算法,最终确定直系同源基因有232条,其中有58条基因注释到KEGG数据库,注释信息表明大部分基因参与了次代谢物的生物合成、氨基酸代谢、基因切除和修复功能、抗性调控功能,整合后的基因有较高可信度。3)使用多种基于序列分析算法,对抗旱富集的直系同源基因的理化性质和蛋白质结构进行了分析和预测。研究表明大部分同源基因可转录翻译成亲水可溶性蛋白、非跨膜蛋白;绝大多数基因都定位细胞核、线粒体以及细胞质等;预测蛋白质的二级结构均由α螺旋和无规则卷曲为主,且大部分同源基因蛋白的无规则卷曲结构比例偏多。这些预测有助于阐述抗旱富集的直系同源基因表型功能,为分子育种提供数据上支持。4)使用机器学习的算法对作物的同源基因的生理生化数据进行抗逆性预测建模。通过多种模型算法比较,决策树算法的效果最好,准确度达到了95.65%。选择决策树算法可以对基于序列分析的农作物抗旱的生物学数据建模,预测基因参与抗旱调控的富集表型。通过多组学的整合分析,从系统生物学角度对主要农作物响应干旱胁迫机制及代谢调控网络基因的相关作用关系进行了阐述,明晰响应逆境的基因转录为m RNA,再翻译成为蛋白质后形成代谢物的多层次之间分子生物学上协作关系,阐释关键功能基因的表达模式及通路,为作物抗逆分子育种研究提供生物信息学上的支持,为抗逆生物化学和植物生理学研究提供数据上的支撑,采用该模型,辅助抗逆基因鉴定,从一定程度提升抗逆品种的筛选时效,对研究抗旱机制有着积极的作用。