基于Nextflow的circRNA分析流程开发和集成

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:airbike
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
circ RNA(环状核糖核酸)是一种特殊的环状小分子非编码核糖核酸,也是核糖核酸领域最新的研究热点。通过与疾病关联的micro RNA(微型核糖核酸)相互作用,天然生成的circ RNA分子影响了基因表达,在疾病的发生与发展、生物的生长发育、对外界环境的抵御等方面中都发挥着重要的调控作用。为了更好更全地寻找circ RNA,近年来基于核糖核酸测序序列数的环状核糖核酸预测方法被不断地研发出来,然而不同的算法表现差异较大。例如:Mapsplice和CIRCexplorer2无法检测出从头测序(de novo sequencing)所测出来的环状核糖核酸;而Segemehl不仅运行时间长、内存消耗大,而且得出来的结果假阳性率也比较高。如何获得更加全面,精确的circ RNA预测分析报告是急需解决的技术问题。把相对权威的几款检测软件所得出来的结果进行对比和合并才能得到最齐全的circ RNA预测结果。基于此,本文的主要内容如下:首先,本文简要地阐述了circ RNA检测流程的研究背景、现状和意义。其次,本文介绍了不同检测工具间的算法原理,以及对比不同工具之间的优势和劣势。随后,本文为circ RNA的检测提出一种基于Nextflow的整合分析流程。利用process和channel的强耦合性,把不同的分析步骤整合在一起。通过数据流自动执行步骤,从而节省繁琐的人工操作步骤。同时,本文设计独特的circ RNA合并策略来去除冗余的预测结果。为了对circ RNA进行深层次的解读和分析,本文还加入了针对circ RNA的生物信息数据统计分析以及生物通路验证分析。最后,我们在不同的真实数据集上对该流程的性能以及效果进行测试。通过与现有方法的对比,彰显出该流程的优越性和全面性。综上所述,本文的主要成果在于:(1)本文结合了五种circ RNA检测工具的优点,利用Nextflow框架的强耦合性集成出一款新式circ RNA分析流程。该流程具有一键式运行、自动化配置参数等特点,可良好地降低分析步骤的繁琐性、极大地便利于circ RNA的检测与分析过程;(2)不同于其他单一的分析流程,本论文不仅设计了独特的circ RNA去重合并筛选策略,还引入了针对circ RNA的生物信息分析流程,从而对circ RNA的预测结果进行全面解读与分析;(3)除理论分析以外,本文利用真实数据集测试流程的合理性和有效性。并对结果进行生物学验证,表明该流程在研究circ RNA对于癌症的作用与影响的过程中具有积极的帮助,例如影响肿瘤转移靶点的通路和癌症的重新分类。
其他文献
中国自古以来就是一个农业大国,农业一直是国民经济的命脉,农业的发展与否直接关系着社会的稳定与进步。建立农村信息服务机构,提高农村信息服务质量,解决农村信息进村入户工
随着市场对超低碳洁净钢的需求日益增大,RH真空吹氧技术迅速发展,该技术已成为生产高品质超低碳洁净钢的的核心,但由于缺乏真空状态下射流冲击高温熔体的基础理论研究,致使多
本论文综合运用岩心观察资料、测录井资料、镜下薄片资料、电镜资料及分析化验测试等资料,重点对准噶尔盆地二叠系下乌尔禾组储层进行了沉积相特征、岩石学特征、物性特征、
近年来,全球气候变暖逐渐成为人们关注气候变化的热点内容,CH4、CO2、N20等温室气体是影响全球变暖的主要因素。CH4含量虽占温室气体总量的比例相对较小,但其增温潜势相对较
MgO-C耐火材料具有很高的抗渣性,普遍应用于转炉和LF精炼炉内衬。本课题利用超真空高温润湿测试系统,通过座滴法探究多元熔渣与MgO-C耐火材料界面润湿、渗透和侵蚀等过程的反
生物特征识别作为计算机视觉的一个研究方向,一直受到国内外学者及各大企事业单位的广泛关注。作为生物特征识别技术中重要的研究方向,人脸识别技术由于其较高的商业价值和极为广阔的应用前景,发展尤为迅速。然而,尽管人脸识别技术己经发展了几十年,由于涉及复杂的现实场景应用,目前依旧存在许多的技术瓶颈尚未突破。本文沿着人脸识别的系统脉络,对其中的部分关键技术展开研究。选择CASIA-WebFace数据集作为训练
巴音都兰是二连盆地经勘探证实的富油凹陷,虽然前人已经对该研究区进行了大量的研究,但是对于研究区烃源岩产烃能力、原油地球化学性质、油气成藏特征等方面认识不够。因此,本文通过将地球化学资料和石油地质资料相结合的办法,利用先进的实验特色技术,对研究区烃源岩地化特征、原油特征、油气运移特征、成藏期次等成藏等方面进行了系统的研究。研究表明,巴音都兰凹陷主力烃源岩为阿尔善组和腾格尔组烃源岩。其中,阿尔善组烃源
多标记学习是传统机器学习任务的一种框架,在多标记学习任务中,一个对象往往同时与多个语义标记相关联。现实场景下,精准标记信息很难获得,研究样本的监督信息往往存在缺失、
天山东段哈密焕彩沟地区位于哈尔里克山南坡,大地构造上处于中亚增生型造山带的关键部位,经历了多期次的构造岩浆事件,发育有大量古生代岩浆岩。本文选取焕彩沟地区附近出露的侵入岩进行岩石学、年代学、锆石Hf同位素以及地球化学等方面的研究,探讨其形成的大地构造背景。焕彩沟地区不同时代侵入岩的岩性主要是:辉长辉绿岩、石英闪长岩、闪长岩、花岗闪长岩和二长花岗岩。对岩石样品进行了锆石LA-ICP MS U-Pb进
近年来,高校各项事业蓬勃发展,用于科研、教学、引进人才的经费逐年增加,而高校自身经费有限,导致用于节能改造的经费所剩无几。高校作为公共机构,国家、省市对公共机构的节能要求并未降低反而要求越来越高,尤其体现在十八大后,国家做出“大力推进生态文明建设”的战略决策。因此,引入合同能源管理模式,利用市场的技术、资金、管理经验来参与学校节能改造和工程建设,一方面可以节省高校有限的办学经费,另一方面还可以利用