RNA-seq数据自动化分析流程构建及其在肺癌数据库构建中的应用

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:luckcarrier
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肺癌的死亡率在全世界癌症中仍居首位,肺癌的早期筛查和治疗是降低其死亡率的有效手段。基于基因分子的筛查和基于分子靶向疗法的治疗手段已经应用于肺癌的研究,发挥出了重要作用,同时也显示出探索分子靶标的实用性。肺癌转录组研究可以为发现分子靶标提供宝贵价值。目前有关肺癌转录组的研究非常多,也产生了大量的转录组测序(RNA sequencing,RNA-seq)数据,但是缺少一个RNA-Seq全面的自动化分析流程和缺少专门针对肺癌RNA-seq的数据库。基于此,我们开发了RNA-seq自动化工具Raser(RNA-seq analyzer),分析了904组肺癌RNA-seq数据,构建了人类肺转录组数据库Lung RNAdb,为研究人类肺癌的靶标基因和药理研究提供借鉴。本研究一共收集了904组肺部组织的RNA-seq数据,包含146个正常肺组织样本、694个肺癌患者组织样本和64个肺癌细胞系样本,使用本课题研发的Raser工具分别将这些患有肺癌的组织和正常肺组织样本进行基因差异表达分析(differential expression analysis,DEA)。结果表明,小细胞肺癌(Non-small cell lung cancer,SCLC)患者组织样本和非小细胞肺癌(Small cell lung cancer,NSCLC)患者组织样本间没有表现出共同的差异表达基因(differentially expressed genes,DEGs),肺腺癌(Lung cancer Adenocarcinomas,LUAD)细胞系NCI-H1975和NSCLC细胞系HCC827也没有共同的DEGs,支持了SCLC和NSCLC生命活动的差异性,解释了二者可能在致病机制上不同的观点;同时发现14个基因在三种NSCLC中均差异表达。我们还预测了116,758个Lnc RNA,并统计了每个Lnc RNA在每组样本中的表达情况。同时我们还找到正常样本组768个偏好性表达的等位基因,小细胞肺癌71个偏好性等位基因等,511个融合基因,都发现了其在SCLC和NSCLC间较大的差异。基于肺癌的转录组分析结果,本研究构建了肺转录组数据库Lung RNAdb(http://glab.hzau.edu.cn/Lung RNAdb#/)。在总体框架上,该数据库配置了4个模块,包括肺癌数据集模块、药物敏感性模块、检索模块和基础功能模块。肺癌数据集模块提供了所有基因、长链非编码RNA(Long non-coding RNA,Lnc RNA)、等位基因和融合基因等相关数据的查询和下载;在药物敏感性模块,Lung RNAdb展示了所有与肺癌相关的药物敏感性、药物靶标等内容;在检索模块,用户可以通过基因、转录本相关的序列、位置等关键字快速定位到Lung RNAdb里的具体页面;功能模块分为基因、Lnc RNA、等位基因和融合基因四个部分,也配置了基因组浏览器Jbrowser可帮助用户在基因组范围内查看和检索,而且提供了它们在各个肺癌亚型中的表达水平差异可视化和下载。此外,本课题开发了RNA-seq自动化分析工具Raser(https://github.com/clsteam/Raser)。该工具支持多进程、多线程并行,极大地提高分析效率,而且用户可以根据需求自由搭配工具进行个性化分析。该软件在支持检测差异表达的基因和转录本基础上,还支持检测Lnc RNA、鉴定融合基因以及检索剪切位点等。以Lnc RNA为例,Raser会根据6个预测工具结果筛选出符合条件的Lnc RNA,进而统计其长度、外显子、ORF和表达量、编码能力等,而且还会根据样本表型进行DEA找到DEGs,然后对DEGs分组进行GO富集、Pathway通路分析,最终生成可视化结果。
其他文献
畜禽屠宰加工装备的自动化是我国工业化进程中的一项重要内容,近年来,发达国家畜禽加工技术及装备逐渐向着信息化方向发展,而我国牛羊屠宰装备落后,屠宰过程绝大多数依赖人工参与,畜禽自动化分割分级装备缺乏,生产过程管理粗放,严重制约着畜禽屠宰分割分级水平的提升。针对国内羊胴体分割分级不精确、流水线自动化程度低、分割质量差等问题,本文以去腿剥皮后的羊胴体为研究对象,探索研发了一种智能化分割装置,以实现对羊胴
培育高产优质作物是解决粮食短缺最有效的方法,农作物的表型特征如高度、叶角度、植被覆盖面积、生物总量等参数是检验作物是否高产优质的重要依据,也是培育高产优质作物的关键步骤。快速、灵活、稳定有效地获取作物不同生长时期的不同表型性状对于培育高产优质作物具有重要意义。目前田间作物表型性状的获取手段多种多样,但其或者费时费力、或者成本高、或者主观性较大。本课题设计研发了一种田间作物表型检测平台,可实现高灵活
亨廷顿蛋白结合蛋白1(huntingtin-associated protein1, HAP1)是最早发现的能与亨廷顿病(Huntington’s disease, HD)基因产物亨廷顿蛋白(huntingtin, Htt)相互结合的蛋白质。HAP1具有HAP1A和HAP1B两种剪接体,既在神经元中表达,也在分泌含氮激素激内分泌细胞中表达。在神经元内,HAP1参与细胞器和分子的运输、膜受体转运与再
近年来,生命科学的研究正处于突飞猛进的发展中。随着人类基因组计划(HGP)的基本完成与现代生物技术的飞速发展,大量生物信息的获取已经为揭开生命的奥秘提供了坚实的数据基础。在生命科学的研究进入到后基因组时代(Post-Genome Era)时,生命科学的研究重点已经不再是生物信息的获取,而是转移到对基因组功能及其变化规律的研究,因此对海量数据的处理产生了紧迫的需求。与此同时,计算机技术及网络技术的革
消落带是指由于季节性的河流或者水库的水位周期性的淹没和露出水面的脆弱的水陆交错的特殊带状生态系统。消落带不管与陆地生态系统还是水生生态系统都有重叠,再加上库区人民通常沿着岸边生活,各种人类活动都会干扰到消落带的生态稳定,因此,对于水库修建完成后的消落带及其周边的土地利用变化做出研究,为保护两岸生态环境与人民安全是有重要意义的。三峡工程是全球最大的水利工程之一,其具有调蓄洪水,交通航运,发电等功效。
雌性的精子贮存是动物界中广泛发生的生理现象,主要包括精子进入下生殖道、暂时贮存于精子贮存库以及精子活化释放等过程。对于体内受精的动物而言,精子贮存是异步交配与排卵的生殖基础。不同的动物有不同的精子贮存策略,在鸟类中,雌性的精子贮存依赖于分布在子宫阴道交接处(uterovaginal junction,UVJ)的精子贮存小管(sperm storage tubule,SST)。基于SST的存在,在一
排卵是指成熟卵泡在促性腺激素刺激下释放具备受精能力的卵母细胞过程。这个过程涉及卵泡中各类细胞的精准互动与命运决定。颗粒细胞(Granulosa cells,GCs)是唯一能识别并响应排卵LH(或HCG)信号的。因此,对LH峰刺激下GCs内基因的分类分析与深入解读是理解排卵的关键。本研究利用RNA-seq、Q-PCR、Western blot、基因敲低、基因敲除等实验手段,在细胞和个体水平,对LH排
长江中下游农业区土壤黏重潮湿,机具碾压使地表平整度差,耕作时耕深不稳定。针对以上问题,本文研究了一种基于拖拉机车身俯仰角与悬挂装置提升臂转角的耕深监控方法。该系统主要由耕深检测系统、耕深控制系统和耕深执行系统组成,能预设耕深值和显示实时耕深。耕深检测系统中的角位移传感器测定悬挂装置提升臂转角,车身倾角传感器实时测定不同地表平整度下的拖拉机倾仰角度;耕深控制系统基于检测系统反馈实时耕深发送电信号至耕
葡萄的营养价值丰富,被誉为世界四大水果之首。葡萄为穗状水果,其紧实度、成熟度,以及破损对葡萄的生长、分级及销售有着极大的影响。目前国内对葡萄的分级手段主要依靠果农的人工分级,人工成本高,分级时间长且分级标准不统一,分级效果良莠不齐。因此葡萄产业急需一种实时智能检测分级的技术方法。成熟度体现了葡萄的口感与甜度,破损程度表征葡萄串果粒的完整度,而紧实度反映了葡萄串的外观疏密。本文以红提串为研究对象,结