基于对抗学习的基因序列深度表示及分类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:werr2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于真核细胞来说,生物过程都是由不同层次的复杂生物机制调控的。DNA序列既是承载着生物信息的基石,也是传递信息的桥梁,其包括了生化过程中所需的信号。基因必须经过转录和翻译生化处理阶段,才能实现其特定的功能。基于此,识别基因组信号和区域(genomic signals and regions,GSR)对于理解基因组组织、基因调控和基因功能非常重要。与本研究有关的两种GSRs为多腺苷酸化信号(polyadenylation signals,PAS)和翻译起始位点(translation initiation sites,TIS)。与PAS相关的生化处理阶段是转录,与TIS相关的是翻译,正好对应两种主要的处理阶段。到目前为止,已经有很多计算方法被开发用于识别这两种GSRs。但是,这些方法存在某些缺点,例如只针对某一种GSRs,甚至只针对于某一种真核生物。有些模型难以进行泛化,可能鲁棒性欠佳。这些模型的性能都有很大的改进空间。因此本研究则是致力于解决这一问题。本研究提出了一种基于DNABERT、对抗训练、双向门控循环神经网络以及多尺度的卷积神经网络新颖的深度学习框架,旨在构建一个无需针对特定生物序列任务而专门开发相关特征,端到端、通用且鲁棒性强的识别模型。该模型能提取深层次的信息以及识别模式。本研究提出的方法在12个跨物种泛基因化数据集上进行训练和评估。和SOTA方法(the state-of-the-art methods)进行对比,结果表明,本研究的方法在三种指标方面要优于SOTA方法。另外,本研究还进行超参数优化实验以及消融实验,以此来获得更高的模型性能以及证明在本研究的模型中的每个模块都是必要的。另外,还有9个其他工作中发布的与GSRs相关的数据集,也在这些数据集上进行训练和评估,以证明模型的通用泛化能力,做到多领域的适应。结果还是同样地表明:相比同样使用这些数据集的方法,本研究的模型在这些数据集上的分类性能方面同样表现最好。最后,得出结论为该模型适合用于GSRs的识别任务。并且可以轻易地泛化到其他的领域,这为生物序列中的预测和回归任务提供了一个通用框架。在未来的研究中,将建立一个网络服务器并上传本研究之前训练的代码和模型,以提供一种自动识别GSRs的便捷方式,并且将其推广到蛋白质二级结构、剪接位点、多聚腺苷酸化切割位点以及终止密码子等生物序列识别任务中。
其他文献
不可逆电穿孔(Irreversible electroporation,IRE)肿瘤消融技术是一种新型肿瘤消融物理治疗方法,具有对大血管毗邻的肿瘤进行消融,且不损伤血管的优势。电脉冲参数是不可逆电穿孔治疗效果和安全性的关键参数,在临床应用中有多种选择,造成治疗效果的不确定性。电脉冲生物效应有无效、可逆电穿孔、不可逆电穿孔和热效应四种。可逆电穿孔的生物效应主要是细胞膜渗透性增加,不可逆电穿孔的生物效
学位
研究生党支部是高校党组织团结和引领广大青年学生的重要阵地。加强研究生党支部规范化建设是落实全面从严治党的必然要求和建设高质量教育体系的有力保障,也是推动研究生全面发展的重要力量。但目前高校研究生党支部仍存在支部设置不合理、发展党员工作流于形式、支部保障机制有待完善以及组织生活缺乏创新等问题。对支部组织建设、党员发展评价体系、支部管理方式和党内外沟通机制等进行方式方法创新,可推进研究生党支部的规范化
期刊
AIM2(Absent in Melanoma 2)作为胞质DNA感受器,可以直接识别并结合双链DNA,活化炎症小体复合物,促进白细胞介素(Interleukin,IL)IL-1β和IL-18的成熟分泌,参与宿主免疫防御。FBXW7(F-box/WD repeat-containing protein 7)是一种SCF E3泛素连接酶,在细胞分裂、生长和分化中起到重要调控作用,作为一种抑癌基因被广
学位
一直以来,身份验证都被广泛应用在生活和工作的各个方面,随着计算机科学和硬件技术的发展,身份验证技术的应用场景变得更加复杂和多样化,传统身份验证技术受到了极大地挑战,逐渐朝着向电子化、智能化发展。人体的生物学特征取样自受试者,具有唯一性、稳定性、安全性、普遍性等天然优势,因此被优先考虑用于身份验证。截至目前,指纹识别、人脸识别已经在各种场合得到了广泛应用,但都存在着一定的缺陷。虹膜生物学特征在唯一性
学位
剂量反应Meta分析(dose-response Meta-analysis,DRMA)是基于多项提供剂量反应关系数据的原始研究,对其剂量反应结果进行定量合并后得出综合剂量反应直线或曲线的一类Meta分析,广泛应用于循证证据产生及临床决策等方面。目前已发表DRMA结果的可靠性和文章质量水平不一,而且国际上暂无DRMA的统一报告规范。本研究系统梳理了DRMA的本质、各步骤统计方法及常见统计分析问题,
期刊
随着信息时代的到来,数据的表现形式越来越多样化,推理一种现象发生的可行性不能仅依靠信息拥有者有限的知识水平,需要综合考量各方面的因素,例如判断一个人消费意愿需,不能仅根据他的购买记录,要同时考虑他的购买能力,而这两种数据多数情况下并不会隶属于同一机构。上述情景便涉及到多机构联合学习的问题,传统的方式是将数据集中起来进行机器学习模型的构建。然而,然而随着国家对隐私保护的逐渐重视,以及隐私保护法律的逐
学位
关于因果关系的研究由来已久,但目前自然语言处理领域的因果关系抽取研究仍是一个新兴领域。最初因果关系抽取仅为关系抽取任务中的其中一种,但随着因果关系抽取任务的重要性逐渐显现,目前已有越来越多的研究致力于单一的因果关系抽取任务。作为一个比较新的研究方向,在因果关系抽取任务中,数据集过小是我们在研究中常常遇到的问题,其解决方式一般是使用元学习或数据增强方法。目前的数据增强方法大多数采用一套基于规则的处理
学位
语义分割是计算机视觉领域中的一个重要方向。随着医学图像分析、汽车的自动驾驶等领域的发展,语义分割任务变得越来越重要。语义分割结果的精确度越高,对于下游任务的效果越好。由于语义分割需要像素级别的图像标注,这会为数据集的准备工作带来巨大的工作量,会损耗大量的时间,因此很难对规模巨大的数据集进行人工标注。本文在已有算法的基础上提出了一种基于半监督学习的混合伪标签语义分割算法,使用半监督学习来解决像素级别
学位
医学影像产业是我国医疗器械领域中最大的细分领域。近些年来,随着人工智能技术和医学影像技术的迅速发展和大幅度进步,医学影像已经成为了临床疾病诊断、疾病治疗以及现代医学研究中一个必不可少的技术手段。在医学影像辅助诊断领域中,医生或研究人员在对内部组织器官进行定性和定量分析、病情实时监控以及未来治疗规划时,为了能够做出尽可能正确的治疗决策,通常需要了解这种组织器官的一些详细信息,因此生物医学影像已成为疾
学位
医学图像分割是医学领域中非常基础且重要的任务,有助于辅助诊断和临床研究。随着深度学习的蓬勃发展,卷积神经网络(Convolutional Neural Network,CNN)方法在生物医学图像分割领域表现十分优异。但是深度学习在处理医学图像任务时主要存在两方面问题:1)医学图像数据处理困难,医学图像的模态多样化,经常存在伪影、噪声等,且不同于自然图像,医学图像获取困难,导致数据量较小。2)卷积神
学位