基于TCN的纳米孔测序数据分析方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ffgghhaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从发现DNA遗传物质以来,人类便不断对其进行探索研究,并开展了一系列基因组测序工作。时至今日,基因测序技术通过不断革新,已经发展到第四代。最新的纳米孔测序技术通过被测DNA链通过纳米孔时电流信号的变化识别其碱基序列,不需要繁复的DNA链预处理过程,具有低成本、速度快、易携带、实时性、读长长等优点,但也存在准确率不高的缺陷。在针对纳米孔测序信号的碱基序列识别方法中,一种是以隐马尔科夫模型为代表的统计方法,另一种是以LSTM循环神经网络为代表的深度学习方法。但由于模型结构简单,前者的识别精度并不理想;而后者对时序输入信号的分析不够充分,识别效果仍有较大的提高空间。鉴于此,本文基于TCN时序卷积神经网络研究了纳米孔测序信号的碱基序列识别问题。首先,本文对λ噬菌体纳米孔测序仪Min ION的测序数据进行预处理,根据质量分数与序列长度筛选数据,并在NCBI数据库中获得参考基因组,形成研究数据集。随后,基于TCN时序卷积神经网络框架构建了识别模型,以针对被测DNA链的纳米孔测序电流时序信号实现碱基序列识别。模型构建过程中,考虑到所研究数据为时序数据而采用因果卷积,并针对感受野小的问题而采用扩张卷积。在数据输出部分结合连接时序分类器(CTC)的解码机制,通过引入空白占位符与概率计算方法解决无分割端到端非对齐序列预测的问题,并利用其损失函数优化模型参数。当输入序列较长时,引入了可以从大量信息中快速筛选高价值信息的注意力机制,同时采用批标准化解决ICS(Internal Covariate Shift)问题实现模型性能的进一步提升。最后,利用融合模型的思想搭建了基于基本模型和注意力机制的集成模型。经与目前已有模型的实验对比,本文构建模型的识别效果更好。
其他文献
在我国的社会主义事业发展进程中,“民生保障”一直是社会关注的焦点,妥善解决事关人民群众切身利益的民生问题,是评价各级政府工作质量的重要指标。随着社会的发展及人民群众素质提高,民生保障领域中贯穿人一生“生、老、病、死”的社会保险也被越来越多的人关注。作为社会保险的基础,社会保险费的征收工作,直接影响我国社会保险制度的可持续发展和社会保障水平的提升。2018年7月由中共中央办公厅、国务院办公厅印发的《
城市商业银行作为我国银行业中的重要组成部分,近几年发展势头不断加快,在我国的银行业乃至整个金融体系中都发挥着越来越重要的作用。不良贷款率是衡量商业银行贷款风险的主
层状过渡金属硫族化合物是一种经典的低维强关联电子材料,这类材料由于其特殊的晶格结构和原子结构,使其具有一些有趣的物理、化学性质,在如今的一些热点问题(如电荷密度波、
海上风电运维船登乘系统是一种能够进行人员及运维设备运输的大型控制系统,主要用于海上风电厂中风机的检修。如今海上风电的发展推动了风电运维,且海上风电建设将在离海岸较远海域进行建设。这就不能单纯的依靠顶靠方式对风机平台进行检修,一种可靠、抗海况能力较强的登乘系统得到国家和企业的重视。由于三自由度海上登靠步桥与六自由度并联平台在运动学上的可分离性,本文研究的系统是应用于海上风电运维船上登乘系统中的一子系
地形模型是对地形特征的整合和缩形,是人们在三维空间表示地形的载体和工具。计算机的出现让地形模型实现数字化,“数字地球”的构想大大推动了三维地形建模技术的发展,然而数据量的大幅增加也给目前的地形建模技术带来了新的挑战,如何快速准确地实现三维地形建模已成为当前研究热点问题之一。本文针对三维仿真领域实际应用需求,研究改善三维地形模型数据冗余和局部失真问题的有效方式,提出一种基于地形语义分割的多分辨率三维
近年来,小型无人机由于机动性突出、价格低廉、易于控制、不易被探测的特性在生产和生活中得到了广泛的应用,但无人机的泛滥使用对人们的生产生活带来了严重安全隐患,同样给空中安全管制带来了巨大的威胁。因此无人机的防患成了亟待解决的问题。近年来,人们对雷达系统探测和识别无人机进行了广泛研究,但由于小型无人机的雷达散射截面(RCS)较低,与传统飞机相比飞行高度较低、速度较慢,属于典型的“低小慢目标”,利用传统
知识库问答系统的目标是根据用户自然语言问句从知识库中找到可以回答该问句的三元组,并直接返回给用户一个准确的答案。大规模知识库的发展推动了工业界和学术界对于知识库问答系统的研究。本文主要研究知识库问答系统中涉及到的一个关键技术:关系映射,即自然语言问句到知识库中关系的映射。关系映射技术面临的一个重要挑战是如何学习表达方式多种多样的自然语言问句与高度结构化的知识库三元组中的关系的语义匹配问题。本文将针
在各种非接触式测量系统中,四自由度激光测量系统因其高精度和高效率被广泛应用于机床导轨几何运动误差测量中。然而,激光光束漂移会大大降低其检测精度,带来较大的附加误差。随着机床加工精度的不断提高,对检测精度提出了更高的要求。因此,抑制光束漂移以提高测量系统的检测精度具有重要意义。为解决这一问题,本研究以实验室设计的四自由度激光测量系统为对象,主要完成以下工作:(1)结合半导体激光器的温度特性,设计了基
如今,人们通常在自己的计算机上保存成千上万的图像,因此对基于不同面孔识别并管理相册的工具有很强烈的需求。目前已经有许多常规技术用于面部识别,但是这些技术面临许多问题,包括面部姿势,光照,阴影,头部位置变化和图像大小、清晰度等都对识别性能有极大影响,同时,传统的面部特征提取技术识别率较低且无法快速、准确地完成特征提取任务。面部聚类领域面临的主要挑战是需要面对大规模数据、大量类别、高类内差异和低类间区
智能电网用户侧通信技术是确保电网用户侧和供应侧之间双向电力信息交互的关键。由于电网用户侧设备种类繁多、通信技术多样,为用户侧智能设备提供一套通用的数据传输和应用接口,提高电网供应侧和用户侧不同平台或设备信息的兼容性和互操作性尤为重要。因此,本文针对智能电网用户侧通信技术展开研究,设计并开发了基于SEP 2.0(Smart Energy Profile 2.0)通信标准的上层中间件开发方案,降低了S