面向全基因组poly(A)位点识别的机器学习分类模型研究

来源 :福建农林大学 | 被引量 : 0次 | 上传用户:vingf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多聚腺苷酸化(Poly(A))是基因表达的一个重要步骤,它对转录本稳定性和蛋白质翻译起始必不可少,因此受到了复杂的调控。选择性多聚腺苷酸化是指同一个基因位点通过选择不同的多聚腺苷酸化位点而产生不同3’末端的转录本,是目前普遍存在的对mRNA代谢和功能的一种调控机制。目前基于实验的方法均无法检测出所有可能的poly(A)位点。因此有必要开发基于机器学习的方法来预测出所有可能的poly(A)位点。本文将poly(A)位点检测问题看成是不平衡数据的二分类问题,尝试建立统计分类模型,并进行拟南芥和毛竹这两种植物的跨物种检测。首先对拟南芥五条染色体的序列数据进行降采样处理,以拟南芥第四条染色体为训练数据,分别训练DNN、CNN和CNN-LSTM这三种神经网络模型。DNN模型能够提取数据的深度特征,CNN模型能够提取局部信息,LSTM模型能够提取序列特征。训练后的模型在拟南芥其它四条染色体上都有80%左右的准确率,说明poly(A)的机制是有规律可学习的,但是这种方法预测出很多非真实的poly(A)位点,不能真正检测出潜在的poly(A)位点。为了解决这个问题,本文使用随机降采样和集成学习的方法。降采样方法控制训练数据中含有poly(A)的样本数和不含有poly(A)的样本数比例大致在1:50左右,分类器则采用集成学习中的GBDT算法。出于计算的考虑,选用可以用GPU加速计算的XGBoost算法。实验发现在拟南芥上预测出来的poly(A)点附近的碱基分布和实验获得poly(A)点附近的碱基分布基本一致,说明预测结果的可靠性。最后,本文通过用拟南芥训练模型在毛竹这种单子叶植物上做预测,或用毛竹的三代单分子测序结果作为训练模型在双子叶植物拟南芥上做预测,二者都能够获得准确的预测效果,说明poly(A)位点分子机制在单子叶植物和双子叶植物中都是保守的。也同时说明本文设计的模型在识别poly(A)位点方面具有广适性。
其他文献
经过近20年的发展,目前我国竞技真人秀已进入高速扩张时期。《2019腾讯娱乐白皮书》显示,在2019年国产综艺网络热度前十位中,有5部是竞技真人秀。近年来,国内竞技真人秀出现了题材由大众化向小众化、专业化转型的趋势,其中典型的有《中国有嘻哈》和《这!就是街舞》等。这些小众文化类竞技真人秀推出后,引起了较为广泛的关注,维持着较高的热度。那么,小众文化类竞技真人秀与传统的竞技真人秀相比,在哪些方面继承
氢化非晶碳薄膜(Hydrogenated amorphous carbon films,a-C:H)由于具有优良的耐磨性、生物相容性和化学惰性等特性,被用于金属人工关节表面改性,以有效减少金属人工关节的磨损和腐蚀。然而,在长期服役时,a-C:H薄膜中较高的内应力会导致其在服役过程中发生薄膜剥落的现象,限制了a-C:H薄膜的应用。掺杂Cu元素可以降低氢化非晶碳薄膜中的内应力,提高薄膜的膜基结合力。此
心学是中国哲学中重要的一门学派,战国时期的思想家孟子就非常重视“心”的作用,他认为“心”具有天然的道德意识,又觉得“心”是人体的思维器官,西汉思想家董仲舒认为“心”是气的主宰,隋唐时期的佛教徒则认为“心”是一切精神现象的总称,南宋的朱熹则主张“心”统治着性和情,陆九渊还提出“心即理”的命题,到了明朝首先由陈白沙提出了“以自然为宗”、“静坐”等心学思想,随后其弟子湛若水继承并发展了他的心学思想。湛若
骨水泥作为骨粘固剂,广泛应用于骨科临床。常见的骨水泥有CPC和PMMA骨水泥。但CPC骨水泥的力学性能较差,凝固时间较长;PMMA固化温度过高、弹性模量大、成骨活性差。因此,对CPC和PMMA骨水泥进行改性,成为扩大其临床应用的重要途径。研究表明磁刺激能有效地影响骨细胞的增殖、分化行为,将磁刺激与磁性材料相结合制备出刺激-响应型骨水泥,有望成为一种新的骨治疗方法。本论文将兼有生物活性和良好磁性的C
两宋是中国文学发展的重要时期,也是悼亡诗歌发展的关键时刻。由于宋代社会、政治、文化等多方面原因,悼亡诗的创作取得了令人瞩目的成就,蔚为大观。这主要包括作者及诗歌数量的上涨,质量的优质两个方面。分而观之,一方面宋代悼亡诗歌呈现出创作规模扩大,诗歌及诗人数量大增,悼亡诗题多样,内容及表现形式丰富的特点。另一方面宋代悼亡诗作者又呈现出不可忽视的群体效应,并且在出身背景、婚姻状况、家庭情况、仕途经历上有着
细胞和生物材料的相互作用研究对于优化生物材料设计、探究细胞在微环境刺激下的行为机制至关重要。已有研究证明,在细胞与生物材料相互作用的过程中,生物材料的力学和电学性质是影响细胞功能调节的重要因素。然而,以往的研究主要集中在探讨单一力、电刺激下的细胞调节机制,而缺少相应的实验和测试平台研究生物材料的力电耦合激励对细胞行为的调节。因此本文开发了一种用于细胞和生物材料共培养的力电耦合加载测试平台,可以实现
预制装配式桥梁采用工厂化生产构件,并在现场进行组装,能够充分体现大规模生产的优势,大幅提高建造质量和建造速度。钢筋灌浆套筒连接技术是预制构件连接和组装的关键技术之一,能够保证结构的整体性和可靠度,有利于预制装配结构的使用和推广。本文从工程应用和受力性能角度对现有钢筋灌浆套筒连接技术进行了系统介绍和总结。作为预制装配式桥梁桥墩连接关键技术之一,套筒灌浆连接用于连接桥墩墩身与承台或盖梁中的竖向钢筋。从
冲刷效应将造成桥梁基础周围土体被冲蚀,降低土体对桥梁基础的侧向约束作用及桥梁结构刚度,进而影响桥梁结构的动力学特性及地震易损性。我国目前正在大力推进西部山区路网建设,其中桥梁占比较高,而我国西部山区处于我国强震区,区域内河流水力梯度较大,冲刷作用十分显著,故研究冲刷对桥梁地震易损性的影响十分必要。同时,随着我国“海洋强国”战略的进一步深入,我国跨海桥梁建设正处于高峰期,其桥址区往往呈现水深、流急的
由于尺寸效应及表面效应,纳米材料的性能与宏观尺度的材料性能有明显区别。对纳米材料或结构在各种不同加载下的演化过程进行原位实时的准确测量,是研究纳米材料各种性质的关键。但是,目前仍缺少有效的实验手段,对微纳结构在外加载荷下,特别是超快外加载荷下的响应进行测量。本工作将大规模分子动力学(molecular dynamics,MD)模拟与相干X射线衍射成像(coherent diffraction im
MoS_2是一种常见的固体润滑材料,被誉为固体润滑材料之王,具有典型的二维层状结构,晶体为六方晶系。这种层状结构使得MoS_2层间容易滑动,这赋予了MoS_2良好的润滑与减磨效果,广泛应用于国内外航空航天、机械制造和刀具等领域。但由于其所处环境及磨损形式复杂,纯MoS_2在复杂工况下容易发生失效,导致其耐磨损性能大大降低并且腐蚀加剧,对其需要有进一步的研究。为了解决纯MoS_2在实际工况中易磨损问