基于机器学习的序列解析和突变分析方法

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:janbchang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的革新,生物数据爆炸式增长,利用计算机技术实现生物大数据的实时分析处理成为越来越迫切的现实需求。本文围绕纳米孔测序中的碱基识别任务和下游蛋白突变预测任务展开研究。纳米孔测序信号由于噪声等原因随机错误率较高,电信号之间存在复杂的局部依赖关系,碱基识别难度大,现有碱基识别软件的速度远远落后于测序仪生成电信号的速度,针对上述问题,本文提出了一种基于长短距离注意力机制的准确快速识别测序碱基的方法,结合传统注意力模块和动态卷积模块,可同时提取测序信号的局部和全局特征信息,在9个细菌测试集上预测结果具有更高的读取准确率。在速度上,该方法支持半精度预测,训练和预测过程都可以通过多GPU环境实现并行加速,具有良好的可扩展性。基因组中的非同义单核苷酸多态性会引起蛋白质氨基酸的改变,而突变的稳定性研究一直是蛋白质组学领域的热点,基于已有的突变数据库,通过机器学习算法预测突变的热力学变化成为主流方向。现有的多数方法都依赖于难以获取的蛋白质三维结构信息,因此无法大规模应用。本文提出了一种基于极端梯度提升决策树的利用序列直接预测的方法,通过双向顺序特征选择算法从进化保守性、预测二级结构特征以及氨基酸理化性质三个方面提取特征并进行选择,结合同源蛋白交叉验证策略和并行网格搜索算法对特征和参数进行评估优化。在性能评估时,本文采用了四个独立测试集,测试结果表明,本文的方法始终优于其他基于序列的方法。本研究为基因组学、蛋白质组学等生物数据分析和处理流程中的关键部分提供了相关技术支撑,在未来研究中,我们将考虑多模式融合处理、结合大规模异构并行算法,为面向海量、异质、多模态生物大数据的信息挖掘和高效计算提供新的思路。
其他文献
基于激光雷达、相机等传感器建立的地图在机器人的定位、导航和避障等任务中发挥着重要作用。本文基于一种新型激光雷达研究地图构建问题,与旋转式三维激光雷达相比,新型激光雷达具有视场角小、扫描模式不重复、不规则的特点。围绕地图构建问题,本文研究了传感器之间的外参标定、闭环检测与校正,提出了一个实用高效的建图系统框架。首先,本文提出一种激光雷达-单目相机外参标定方法。该方法从激光雷达获取的点云数据中估计棋盘
学位
机器阅读理解是自然语言处理领域中一项十分重要的分支任务。该任务旨在让机器模仿人类的阅读理解能力,基于给定的背景文章来分析人们提出的问题并以自然语言的形式给出答案。近年来,随着深度学习技术与硬件技术的不断发展,人工智能的各个子领域都有了显著的进步。受益于各种深度学习网络的创新和大型问答数据集的出现,机器阅读理解领域的热度持续上升,同时也越来越具备挑战性。机器阅读理解领域发展至今,已逐步确立一套比较统
学位
关联成像是一种新型成像方式,基于光场二阶相干性获取物体空间信息,具有无透镜成像、单像素成像等诸多优势。但是,由于关联成像需要大量采样才能获取物体清晰的图像,在对运动物体追踪成像等应用中受到限制。要实现关联成像的实际应用,必须解决对运动物体追踪及成像的问题。本文结合基于自相关的运动物体追踪与成像方案,提出了一种机器学习降噪方法,提高了短时图像衬噪比,能够将所需的成像采样数降低到原来的1/3,且该降噪
学位
乔治·芬利是苏格兰启蒙运动和德意志大学教育共同塑造的一位重要历史学家。他在其巨著《希腊史》中提出了古典文明于公元3-8世纪期间缓慢衰亡的学说,认为专制政府强加给普通民众的沉重财政负担是导致这场衰亡的本质原因,并在总结其历史教训的基础上,提出了针对现实与未来的历史预言。乔治·芬利对早期基督教客观历史作用的理性分析修正了前辈学者爱德华·吉本的偏颇观点。他关于罗马帝国后期与拜占庭时代早期社会经济史的研究
期刊
随着经济的发展和社会竞争的加剧,抑郁问题日益成为困扰人类的主要心理问题。旅游作为一项愉悦身心的休闲活动,在促进心理健康方面有着不小的作用。以往的文献多从个体角度展开旅游与心理健康之间关系的研究,研究样本量小,可能存在群体特殊性,不能代表普遍大众。本文采用中国家庭追踪调查(CFPS)2018年数据尝试从家庭层面实证分析旅游对抑郁的影响作用,并探讨旅游影响抑郁的机制和路径,希望能对旅游在预防和缓解中国
学位
在经济全球化趋势下,合作创新已成为企业构建竞争优势的重要渠道,影响企业能否长期、稳定、可持续的发展。通过与知识信息、技术资源相匹配的利益共同体建立合作关系,企业能够在实现优势共享、资源互补的同时,还能有效削减研发创新过程中所产生的成本,提高创新成功率,将企业的远景战略目标付诸实践。与此同时,知识在企业竞争中的地位日益凸显,将影响企业在知识整合、知识创造中的渠道选取,并最终决定创新绩效的差异。而纵观
学位
单向碳纤维增强复合材料(Carbon fibre reinforced plastic,CFRP)具有高比模量、高比强度、抗疲劳、耐腐蚀等优点,广泛应用于飞机、船舶、车辆、建筑、能源等领域。由于CFPR的制造过程难以完全控制,其细观特征往往表现出明显的不确定性,其中最显著的不确定性就是纤维随机分布。这些细观特征的不确定性导致CFRP力学性能下降的同时呈现较大的分散性,严重制约着CFRP的高效应用。
学位
本文对高中体育选项教学进行研究,首先介绍了实施选项教学的重要性,并对其现状及影响因素进行分析,提出了相应的措施,以使体育教学顺利进行,有助于高校体育课堂的构建。
期刊
日常生活中以及工程应用中所涉及的流动绝大多数都是湍流,然而湍流问题由于其非定常、不规则以及“混乱”的特性,导致用数值方法精确模拟湍流问题极其困难。目前湍流数值模拟的方法主要分为三类,即直接数值模拟(Direct Numerical Simulation,DNS)、大涡模拟(Large Eddy Simulation,LES)以及雷诺时均数值模拟(Reynolds Average Navier-St
学位
随着信息技术的发展,计算机网络已经渗透到关系国计民生的各个行业,网络安全变得越来越重要。恶意软件检测是网络安全中的重要研究领域,可以保护计算机系统免受病毒、木马等恶意软件的破坏。基于GBDT机器学习方法和深度强化学习方法实现了一个高可用、具备抗攻击能力的静态PE恶意软件检测引擎:利用GBDT和深度学习方法实现了两类恶意软件检测模型;利用强化学习算法训练得到了对抗样本生成策略;通过对抗样本重训练的方
学位