小鼠脑发育相关lncRNAs的高通量筛选及注释平台构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:raulhanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长非编码RNAs(lncRNAs)是长度在200 nt以上的非编码RNAs,在胚胎发育、癌症、病痛和炎症等过程中发挥重要的作用。然而,目前公共数据库中小鼠lncRNAs数据较少,而其中被功能注释的则更少。脑组织是lncRNAs表达的主要器官,预测脑表达lncRNAs对于全面识别小鼠脑发育相关的lncRNAs及认识其在脑发育中的作用具有重要意义。此外,将预测的lncRNAs与已知lncRNAs进行整合、注释并存储进专门的数据库中对于lncRNAs的规范化和再利用具有重要意义。小鼠 DNA元件百科全书计划测定了大量组织和细胞系的RNA测序(RNA-Seq)和染色质免疫共沉淀测序等高通量数据,对于预测新的lncRNAs提供了一个新的思路。因此,本研究收集大量组织和细胞系的RNA-Seq数据,基于RNA-Seq筛选鉴别新lncRNAs,通过基因组、转录组、表观基因组和功能基因组学表征证明其有效性,利用模型进行特征选择从而筛选脑发育相关的lncRNAs。整合已知和基于大规模 RNA-Seq数据预测的lncRNAs,构建lncRNAs注释平台和开发分析工具,便利研究人员的使用。  本论文首先对已有的RNA-Seq流程进行优化,进而筛选胚胎脑发育相关的基因间、内含子和顺式反义3种类型 lncRNAs。分别从基因组、转录组、表观基因组和功能基因组学方法表征胚胎脑发育相关的新 lncRNAs,并与已知lncRNAs和编码转录本进行比较。结果表明新lncRNAs具有相对完整的基因结构及较低的编码潜能,具有与已知lncRNAs相似的组织特异性,并与典型的染色质修饰相关。功能富集分析和基于RNA干扰的分析结果表明胚胎脑发育相关的lncRNAs具有潜在的脑发育调控功能和结合转录因子发挥功能的倾向。随机挑选的lncRNAs的实验验证结果进一步表明lncRNAs具有较强的发育阶段特异性并且可能受到印记机制调控。  其次,LASSO调整的罗杰斯特回归模型在本论文中被用于筛选 lncRNAs与编码转录本之间的基因组和表观基因组学差异。由于使用了3个发育阶段的染色质修饰数据,因此差异的特征可并用于筛选脑发育过程相关的lncRNAs。对模型进行十倍交叉证实和独立检验集测试后发现特征选择模型的性能和只使用基因组特征和染色质修饰特征相近,表明少数特征对lncRNAs的预测发挥了主要作用。基于特征选择模型对3个发育阶段的RNA-Seq数据预测的候选lncRNAs进行进一步筛选。通过对新lncRNAs进行的基因组、转录组和功能基因组学方法表征表明模型筛选脑发育相关lncRNAs的有效性。研究lncRNAs与临近编码基因的关系后发现 lncRNAs倾向于与临近编码基因共表达,表明lncRNAs可能调控临近基因。当使用模型分析lncRNAs特异性后,发现lncRNAs在脑发育过程中的表达特异性受到发育阶段特异的染色质修饰调控,例如H3K4me1和H3K36me3,但并未发现受到基因组特征调控,表明LASSO模型具有脑发育过程特异 lncRNAs的识别能力。原位杂交结果验证了随机挑选的lncRNAs的脑发育特异性,而半定量RT-PCR结果发现胚胎发育阶段特异表达的lncRNAs倾向于具有脑组织特异性。  再次,目前公共数据库中 lncRNAs的数目较少,于是整合基于大规模的RNA-Seq数据预测的lncRNAs和已知lncRNAs注释,从而识别出了约26万个lncRNA转录本,称之为 lncRNA合集。其中新 lncRNAs占75%,暗示大部分小鼠lncRNAs尚未被报道。分析发现该合集中新lncRNAs具有脑器官特异性,但没有发育阶段特异性。对新lncRNAs和已知转录本进行加权共表达网络分析发现了57个模块,其中对脑组织表达的转录本模块进行的表达谱热图和GO生物学过程富集分析表明脑模块中脑特异基因的富集,为功能注释奠定基础。基于随机化实验确定的共表达阈值,筛选了12548个预测的具有功能的lncRNAs,其中包括3128个预测的脑功能相关的lncRNAs。进一步利用牵连获罪(guilt by association)方法预测新 lncRNAs的功能,结果发现预测出功能的新 lncRNAs数量比基于加权共表达网络的方法的数量多1倍,并且注释的功能条目数目要多2倍以上,突出了这种方法在预测lncRNAs功能方面的作用。基于交叉证实和独立测试数据的检验初步证明牵连获罪方法的有效性。  最后,对lncRNA合集中脑表达的lncRNAs进行筛选,得到约246464个lncRNAs。对这些 lncRNAs进行基因组和功能基因组注释,发现已知基因注释仅能覆盖不足1/3的lncRNAs;而几乎所有的lncRNAs都可以通过Entrez Gene ID得以在基因组定位,因此 lncbrain注释平台中可以通过该 ID进行 lncRNAs查询。对lncRNAs的注释存储在建立的lncbrain注释平台中,该平台具有较优的平台设计架构及可视化界面,可对查询进行流畅的响应。平台中除了有预先计算好的基因组注释,还有支持使用者实时的表观基因组和功能基因组分析模块。此外,本文还对lncbrain平台的使用进行了详细的介绍。  综上所述,本文筛选了大量的脑表达的lncRNAs,并构建 lncRNA合集。对lncRNAs进行了基因组、转录组、表观基因组和功能基因组学注释。构建的平台有助于实验人员进行脑功能 lncRNAs的筛选及生物信息学研究人员进行lncRNAs的大规模研究。
其他文献
伴随新课程改革不断深入,在初中英语教学活动当中,小组合作学习这一教学方式不仅得到广泛应用,同时其受重视程度也在不断增加.在初中英语教学活动当中若能够对小组合作学习这
教师将数形结合思想应用在初中数学课堂中能够取得良好的教学效果.本文将从数形结合思想的作用、应用策略等方面进行分析,帮助学生轻松学习数学知识,锻炼学生的思维,提高学生
伴随新课改的持续推进,素质教育俨然是初中英语教师要达到的一定教学目标,在整个教学阶段,已经不能再把成绩作为对学生培养质量好坏的唯一标准,锻炼学生的口语能力也对学生的
文言文是初中语文教学工作当中极其重要的教学内容,文言翻译能力与翻译水平,直接影响着学生们的中考成绩.在实际开展文言翻译教学时,初中教师必须要明确文言翻译的重点难点,
目的:探讨燕麦片β-葡聚糖抗氧化及降血脂效果.方法:抽选燕麦提取物β-葡聚糖,应用到血脂试剂盒与、全自动生化分析仪,分光光度计、离心机、荧光分光光度计等设备.选择雄性老
本文设计了一套2.4GHz无线中央监护系统,能同时监护多个床位病人的心电、呼吸、体温等重要生理参数,对多种心律失常进行报警提示。采用功能强大的2.4G无线收发芯片nRF24E1实现信号的采集和收发,既降低了成本又减小了系统体积。其FSK调制模式和工作在全球开放频段的调制频率提高了抗干扰性和适用范围。尽量选用低功耗元器件降低整个系统的功耗从而保证在两节干电池供电的情况下也可稳定运行24小时以上。数据
学困生的存在会影响高中化学课程的开展,甚至会影响到学生的发展.化学教师应该不断提高教学质量,促进学生身心健康发展,除了提高化学教学效率外,还应该将学困生进行转化,激发
医用无线内窥镜系统具有重要的临床应用价值和商业价值,随着无创医疗技术的发展,无线内窥镜成为人体胃肠道微诊疗系统的重要分支之一。无线内窥镜克服了管道式内窥镜的局限,
培养小学语文核心素养是语文教学的重要任务,对小学生的学习和生活具有重要意义.在小学阶段,学生具有较强的可塑性、学习能力和接受系统教学的能力.把小学语文的核心素质带入
在生物保存中,常用三元低温保护剂溶液在低温下的粘度对于理解胞内冰的形成以及分子的输运过程有着十分重要的作用。但是在现有文献中,这种三元溶液粘度数据十分缺乏,并且,就