基于机器学习的N6甲基化位点识别方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:gailuen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
N6-甲基腺嘌呤(N6-methyladenine,6m A)指的是腺嘌呤第6位氮原子的甲基化修饰。6m A在维持细胞正常的转录活性、DNA损伤修复、染色质重塑、遗传印记、胚胎发育和肿瘤发生等生物过程中起着非常重要的作用。传统的实验方法检测6m A耗时、工作强度大且耗费昂贵,很难适合从大量序列中识别6m A。基于机器学习的计算方法可以同时处理多条序列中6m A位点的鉴定,这种方法省时、省力并且效率高,作为实验方法有效的补充,越来越受到生物界的青睐。但是现有的6m A位点识别的计算方法存在分类模型单一、特征单一以及无法进行跨物种识别等问题,为了解决此问题,本研究开展主要工作如下:(1)6m A特征评估和单个模型评估。对现有的DNA序列特征进行评估,选出对6m A位点识别能力较高的5种特征(增强核苷酸组成、核苷酸电子-离子相互作用伪电位、核苷酸化学性质、kmer和核苷酸间隔)构成的较优特征组合,并且使用基于XGBoost特征打分方法进行特征选择,得到较优的特征子集;然后对目前主流的传统机器学习模型和深度学习模型进行性能评估,选出对6m A位点分类能力较高的模型。(2)构建基于集成学习的6m A位点识别模型。针对现有方法中使用的分类模型单一的问题,构建一个基于集成学习的6m A位点识别模型Stack6m APred。基于对单个机器学习模型的评估结果,探索不同类型的集成学习模型,最终构建出一个基于Stacking集成的6m A位点识别模型Stack6m APred。该模型由两层分类器组成,第一层集成朴素贝叶斯、支持向量机和Light GBM等三种主流分类器,第二层使用逻辑回归分类器。(3)构建基于特征融合的跨物种6m A位点识别模型。针对现有方法中过分依赖于先验知识设计人工特征,并且缺少跨物种识别方法等问题,本文构建一个基于特征融合的6m A位点识别模型Fused6m A。本研究从多个数据库中搜集了草莓、蔷薇和拟南芥等6m A数据集,使用三核苷酸编码方式对DNA序列进行编码,构造一个卷积神经网络抽取抽象特征,再融合人工提取的特征,使用支持向量机作为分类器,在多个数据集上进行性能评估,最终构建出一个泛化能力和迁移能力较强的6m A位点的跨物种识别模型Fused6m A。在水稻数据集上十折交叉验证结果表明,使用特征融合策略能够有效提高模型识别性能,准确率比现有方法i6m A-Pred、i DNA6m A和i6m A-DNC分别提高了6.2%、2.9%和0.9%。利用水稻数据集训练的模型分别识别草莓、蔷薇和拟南芥的6m A位点,结果表明,与i6m A-Pred、i DNA6m A、MM-6m APred和i6m A-DNC相比,该模型具有更好的迁移性。
其他文献
本文主要从三个方面对发酵型红枣酒酿造工艺及香气成分进行探究。首先,选取新疆骏枣为试验材料,并针对干枣不易取汁的弊端,采用高温蒸煮与酶解浸提相结合的方式来提高红枣汁的取汁效果。其次,通过响应面试验优化其取汁工艺和红枣酒发酵工艺参数。最后,通过GC-MS对红枣酒不同发酵工艺参数下的香气物质进行定性和定量分析,确定红枣酒的特征贡献香气及对感官品质影响较大的指标,以期为日后发酵型红枣酒的深加工研究提供一定
近年来,我国村庄的产业结构更新和环境建设优化的需求日益迫切。许多村庄在响应国家号召进行改造建设的同时出现包括乡村景观综合效益较差、景观空间序列设计缺乏特点等一系列的问题。诸如此类的问题使得村庄乡土景观变得畸形,不仅造成了原有与村民息息相关的乡村特色景观逐渐消失殆尽,并且对村庄特色文化的发展延续造成阻碍。长此以往下去,对于我国乡村整体建设都将带来无法扭转的影响。2018年,晋源区在乡村振兴的大背景下
细菌Ⅵ型分泌系统(Type VI secretion system,T6SS)普遍存在于革兰氏阴性菌中,在革兰氏阴性菌整个基因组中占比达到1/4左右,并且具有较高的保守性。Ⅵ型分泌系统通过分泌一些效应蛋白等物质在细菌种间、种内竞争、群集效应、压力应答等方面发挥重要的生理生化功能。截止目前,T6SS系统的主要结构组分及其各组分所发挥的功能是人们研究较为深入的部分,但在T6SS基因簇上,依旧存在有大量
进入新时代以来,中国共产党人延续了党历来注重调查研究的优良传统,在全党范围内大力开展调查研究。习近平总书记一直对调查研究在党的国家治理中起到的关键作用持高度重视的态度,他一直都将调查研究强调为是中国共产党实施决策的先决条件,也是加强与人民群众保持密切联系的工作作风的一个重要方式。广大中国共产党人积极响应号召,在田间地头轰轰烈烈地开展了大范围的农村调查活动,为更好地为解决新时代“三农”问题,推动乡村
棉铃虫是一种常见的农业害虫,食性杂,主要危害多种经济作物。农药的长期使用导致棉铃虫产生较强的抗药性,因此,急需开发新的防治靶标来控制害虫。固醇是昆虫生长发育必须的营养物质,然而昆虫不能合成该营养,必须从食物中获取。因此,胆固醇的吸收转运对于昆虫的生存至关重要。本研究以我国重要害虫棉铃虫为研究对象,对食物中固醇营养吸收关键因子NPC1b(Niemann-Pick type C1b)基因开展了应用基础
链霉菌(Streptomyces)次级代谢产物作为抗生素的主要来源,是活性天然产物的重要组成部分,具有潜在的药物开发价值。本实验以5株土壤链霉菌为研究对象,综合运用正反相硅胶色谱、葡聚糖凝胶色谱、中压液相色谱和高效液相色谱等分离手段对菌株液体发酵培养物进行分离纯化,采用~1H-NMR、13C-NMR、~1H-~1H COSY、HSQC、HMBC、NOESY、MS、CD和X-ray等波谱技术对化合物
柿(Diospyros kaki)作为我国传统果树,种质资源丰富,不仅可以鲜食,还可以进行再加工。近年来柿产业发展迅速,除传统的东亚地区外,柿在地中海地区也是商业化种植的重要水果之一。炭疽病作为一种常见的真菌病害在大多数果树上都有发生,我国柿主产区大多数栽培品种对柿炭疽病原菌的抗性水平不高病情一旦爆发对柿产业的发展和果农经济收入会造成严重影响。而炭疽病的防治不能一味的依赖化学防治,需要结合一定的管
禾谷镰孢菌(Fusarium graminearum)是小麦赤霉病的优势病原菌。它不仅能造成小麦的减产,其分泌的脱氧雪腐镰刀菌烯醇等真菌毒素还会残留在染病小麦籽粒及后续小麦制品中,威胁人畜健康。因而小麦赤霉菌的防控是事关国家粮食安全的重大科学问题。禾谷镰孢菌是半活体营养菌,在侵染小麦过程中有一个短暂的活体寄生阶段,在黑粉菌、稻瘟菌等病原真菌的研究中已经表明效应蛋白可能在这一阶段发挥着重要的作用。然
基因复制在有机体进化中的重要性已经被广泛研究,它为生物体的进化创新及表型多样化等提供遗传基础。物种内通过基因复制产生的基因通常被称为旁系同源基因,这些基因组成了基因家族。已往的研究已经揭示了不同物种间许多共享序列和功能同源性的基因家族有着不同的基因数量,而物种间不同的基因得失过程是导致这种差异的原因。基因家族大小的变化被认为可能与物种形成或适应性进化有重要联系。然而,脊椎动物中基因家族大小的进化模
小麦是我国关中平原地区最为重要的粮食作物之一,但该区的农业生产面临着干旱缺水、肥力水平不高等问题。秸秆还田具有提升土壤肥力,改善土壤物理性质,提高产量等作用。生物炭还田具有促进作物生长发育,改善农田理化性质等作用。因此,探寻高效绿色的聚水保墒,提升地力和促进作物生产发育的秸秆还田措施十分重要。本田间试验设置了普通秸秆覆盖还田(SM),普通秸秆翻压还田(SP),氨化秸秆翻压还田(AP),生物炭翻压还