基于深度学习的三代测序全长转录本识别方法

来源 :海南大学 | 被引量 : 0次 | 上传用户:yeyuan1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高等动植物的大部分基因在转录过程中存在可变剪切,从而形成同个基因的不同转录本调控生物学过程。不同转录本的功能不尽相同,甚至有些发挥截然相反的作用,所以了解所有转录本的信息对深入研究基因调控机制至关重要。目前已有基于机器学习的可变剪切识别方法报道,但已有方法主要偏向于二代短序列RNA-Seq数据的识别检测。近年来三代全长转录组测序技术逐渐被广泛应用,本研究针对Pac Bio三代全长转录组数据,提出了基于深度学习的可变剪切识别的二分类模型,该模型将dna2vec词嵌入,CNN卷积神经网络和bi-LSTM双向长短期记忆神经网络三种算法进行整合优化,以识别可变剪切位点。通过人类、猪、小麦和拟南芥等四个物种的全长转录组数据训练和测试新方法,最后将新方法应用于木本毛果杨的三代全长转录组数据分析。主要研究结果如下:(1)建立和评估了用于深度学习模型的RNA序列信息的数值向量的输入模型One-Hot编码与dna2vec词嵌入,通过人类和拟南芥的数据集分析表明dna2vec词嵌入方法优于One-Hot编码,是有效适用模型。(2)构建了识别剪切位点模型,该模型的前三层为CNN卷积神经网络,可以深入提取序列特征,第四层为bi-LSTM双向长短期记忆神经网络,能捕获序列前后的信息,最后使用sigmoid激活函数得到序列预测的概率。(3)使用人类、猪、小麦、拟南芥等四个不同物种的全长转录组数据集,对模型性能进行总体评估,精确召回曲线下面积和特征曲线下面积的值大于0.9,评估结果表明模型性能良好。与已有的AStrap方法进行比较,新模型的精确度、召回率、F1分数、准确值都有不同程度的提高,说明了本模型具有稳定性和通用性。并且提取了模型中CNN卷积神经网络第一层的特征输出,转换为PWM位置权重矩阵,进行可视化模型的特征学习。(4)将新模型应用于毛果杨的三代全长转录组的数据分析,4个模型评估指标值均在0.9之上,并对模型学习到的保守序列和特征序列进行GO和KEGG的功能注释分析,结果表明毛果杨的可变剪切序列显著富集的通路与DNA的修复有关。
其他文献
木本油料产业是我国的重要产业,其不仅能够提供健康优质的食用植物油,同时还能够带动地方经济发展、维护国家粮油安全,具有较高的经济及社会效益。油茶是我国特有的木本油料树种,其种子含油量高且含有丰富的营养成分,是优良的木本植物油来源,在我国广泛种植。在国家的重视及支持下,油茶产业发展迅速,已成为我国部分地区脱贫致富的支柱产业。但目前油茶生产上仍然存在低产的问题,其主要原因是花多果少、自交结实率较低等,影
学位
随着时代的快速发展,社会科技的不断进步,化石燃料同时在被快速消耗和枯竭,发展可再生清洁能源变得尤为重要,生物质转化制备生物燃料具有可再生性,且污染物排放量低等优点而受到人们的注意。通过浸渍法制备了WO3-ZrO2固体酸催化剂,XRD、TEM、BET和Py-IR对制备的WO3-ZrO2进行表征,并将催化剂用于麻风树油的催化脱氧。通过加入氢气以达到对催化剂的保护,减缓催化剂的失活速度,在较高温度下防止
学位
樱桃番茄是海南省反季节生产的重要果蔬之一。随着生活水平的提高,人们对高品质樱桃番茄的需求也越来越大。然而,在樱桃番茄种植过程中存在盲目过量施用化肥的情况,且农田存在土壤酸化,土壤有机质偏低等问题,严重制约了海南樱桃番茄产业可持续性发展。此外,农业生产过程产出大量废弃物,例如禽畜粪便,已成为资源利用和环境保护中急需解决的难题。因此,着眼当前形势,本研究以海南热带地区樱桃番茄为研究对象。试验采用裂区设
学位
为探索热带海草床生态系统中产胞外蛋白酶与纤维素酶微生物资源多样性,并探索研究污染对海草床生态系统产胞外蛋白酶与纤维素酶微生物资源的影响,本实验于海南文昌10个不同的海草床生长区采集了表层沉积物样本共30份(每个采样点3个平行样)。采用梯度稀释平板法共获得各类微生物菌株1188株;使用酪蛋白与羧甲基纤维素钠功能培养基进行特异性选择培养,初步筛选出768株具有产蛋白酶能力和220株具有产纤维素酶能力的
学位
农田重金属污染形势严峻,农产品质量下降,导致土壤生态安全及人类健康受到严重的威胁,因此利用绿色、高效、经济的改良剂进行重金属污染土壤原位修复成为研究热点。首先,通过外源添加5种重金属(Cd、Pb、Cu、Ni和Cr),在单一重金属污染情形下,探究土壤-水稻系统中重金属富集、迁移转运规律,利用目标风险系数(THQ)对土壤重金属污染进行风险评估,推算土壤重金属阈值;其次,通过土壤培养实验,研究海藻有机肥
学位
现如今随着生活水平的提高,人们对食品质量与膳食结构越发重视。而获取营养元素主要来源于食物,氮、钾、钙、铁、锌是木薯在生长发育过程中重要的营养元素也是人体所必须的矿质营养元素,通过施肥的方式来提高作物的产量、养分含量与产品质量以满足人们的需求一直都是被重视的,同时关注和平衡多个元素对产量和品质的影响应该受到更多的重视。因此本试验选取了三种木薯产区推广比较大的食用型木薯为实验材料(华南9号、华南16号
学位
羧酸在自然界中广泛存在,价格低廉,是理想的有机合成原料。羧酸的化学性质比较稳定,一般需要先转化为相对活性的化合物然后再参与反应,这通常导致合成路线的增长,总原子利用效率的降低,合成成本的增加。将羧酸活化生成活性中间体,然后在线参与化学反应,省去了中间体的分离纯化,提高了合成效率,是一种高效的合成策略。本文利用羧酸在线活化策略,实现了1-茚满酮及1-茚酮的一步合成。1-茚满酮及1-茚酮在天然产物及药
学位
基于配方设计和有机-无机复合制备了一种环氧改性有机硅耐高温涂料,通过填充有机膨润土、玻璃粉、滑石粉、搪瓷黑调节涂料的外观、粘接性能和机械强度,通过添加分散剂改善了涂料中无机组分的分散性,通过添加二甲苯、丁醇等溶剂调控涂料流动性,进一步与氨基树脂发生固化反应后得到环氧有机硅漆膜。经多次配方优化,所制备的漆膜外观平整,附着力强,对金属有优异粘接性能,能够耐受600℃的长时高温环境。同时,在经过“600
期刊
为解决椰心叶甲饲养完全依赖椰子心叶的问题,探讨椰子半展叶或椰子全展叶是否也能够用于椰心叶甲长期饲养。利用椰子心叶、椰子半展叶和椰子全展叶在室内长期饲养驯化50代以上,形成室内椰子心叶种群、椰子半展叶种群和椰子全展叶种群等实验种群。本研究测试了室内三种实验种群的生长阶段发育历期差异,构建并分析了三种实验种群的种群生命表,以及分析了长期食物驯化对三种实验种群的椰心叶甲中肠主要消化酶活性的影响,其研究结
学位
珊瑚礁生态系统是海洋中多样性最丰富、生产力水平最高的生态系统之一。由于全球气候变化和人类过度的海洋开发,珊瑚白化现象日益严重,对珊瑚礁生态系统产生了严重威胁。常见的导致珊瑚白化的环境因子,包括高温、高光和海水酸化。由宿主珊瑚和虫黄藻组成的共生体在珊瑚礁生态系统的形成和维系过程中起到核心的作用。因此,研究虫黄藻在引发珊瑚白化的胁迫条件下的生理响应和适应机制对应对阐释珊瑚共生体的稳定和白化机制起到最重
学位