基于深度密度聚类的宏基因组DNA重叠群分类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wxwp_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组学是直接从环境样本中提取DNA序列来进行研究,对微生物的群落结构、物种的组成以及相对丰度等问题进行研究和探索的学科。近年来宏基因组在人类、动物、植物和环境中的研究越来越广泛,但是,宏基因组包含大量未知种类的微生物,通过宏基因组测序得到的原始数据是一些数量巨大的、长度较短的DNA片段。测序得到的DNA片段称为宏基因组的原始数据集,并将基因组短片段通过其末端的连续重叠序列连接组成的DNA片段称为DNA重叠群(contigs)。在宏基因组学的研究中,关键的步骤是将DNA重叠群按物种的属性进行分类,然而,达到理想的分类效果则会受到很多因素的限制,例如:DNA重叠群数量不等、各个物种之间的丰度比不同、DNA重叠群长短不一致等。所以,如何有效划分宏基因组DNA重叠群是当前研究的重点和难点。宏基因组DNA重叠群进行有效分类问题存在的难点主要有:一、在宏基因组数据集中,每条DNA重叠群长度长短不一产生的问题;二、有效准确地对DNA重叠群进行聚类的问题。因此,本文对于目前DNA重叠群分类问题所存在的一些重点和难点方面进行了如下研究:(1)宏基因组DNA重叠群k-mer频率特征提取宏基因组数据特点是大量不同物种的DNA序列混杂,因此将大量DNA序列按照其物种属性进行分类是宏基因组分析的重要一步。在进行宏基因组分析前,利用k-mer频率提取每个DNA片段的数字特征,同时构建特征矩阵作为实验数据集。由于宏基因组数据集属于不平衡数据集,原始数据特征问题导致k-mer频率存在近源物种和短序列特征稀疏等一系列问题,从而会影响聚类性能。因此在聚类之前,需要对其进行特征学习。(2)构建一种基于重叠群长度特征加权的VAE(Variational Auto-Encoder,变分自编码器)特征学习模型本文通过对DNA重叠群进行长度特征加权,解决了DNA重叠群长度不一致对聚类效果产生影响的问题。首先,依据宏基因组数据集的特征来训练与其自身匹配的VAE模型结构和损失函数。然后,将加权后的特征向量作为VAE的输入。基于DNA重叠群长度特征加权的VAE是由两个神经网络组成的,编码器将高维输入映射到低维编码(称为潜在表示),解码器将编码映射到输出,其输出与原始输入的尺寸相同。其中,每个重叠群表示为高维空间中的一个点,此后重叠群的分箱只是高维空间中的点的聚类。(3)提出一种基于深度密度聚类的宏基因组重叠群分类策略依据得到经过加权并进行深度学习的特征向量,本文采用基于改进DBSCAN(Density-Based Spatial Clustering of Applications with Noise)密度聚类算法完成对于宏基因组重叠群的聚类:DBSCAN的两个参数的选择,是通过基于LSH(Locality Sensitive Hshing,局部敏感哈希)改进的DBSCAN聚类算法自动得到临近半径和采样点,避免手动输入造成的聚类误差,最后将两个参数和特征向量作为输入,从而进行完整的深度密度聚类。综上所述,本文提出一种基于无监督深度学习的聚类算法模型,对宏基因组重叠群分类进行系统研究。构建特征矩阵、对特征矩阵中的重叠群长度进行特征加权、构建适合宏基因组数据集的VAE特征学习模型、提出基于最近邻搜索参数的DBSCAN密度聚类算法,并取得比现有分箱方法更好的分类效果。
其他文献
在当前电子信息战中,通信干扰手段复杂多样,若能快速、准确识别出不同干扰信号类型,便可采取相应的措施保证己方通信,对现代化电子信息战具有重要意义。传统的机器学习算法已被应用到典型通信干扰信号分类识别领域,随着机器学习理论和方法的不断发展,越来越多的学者对相应的改进算法开展了研究工作。本文的主要研究内容如下:1.研究了基于特征参数与改进支持向量机(Support Vector Machine,SVM)
近年来随着科学技术的快速发展,无人机的软硬件水平不断提高,在军用领域和民用领域都得到了广泛应用。在无人机的诸多应用中,目标追踪作为一项重要的子任务,在如城市反恐、地面打击和灾后搜救等应用中发挥着重要作用,也因此愈发受到研究人员的关注。而在实际应用中,单架无人机视野范围有限,任务环境复杂,易出现目标遮挡、丢失等干扰,因此如何在环境干扰情况下保持对地面移动目标的跟踪是一个具有挑战性的问题。为此,本文采
近年来,随着自动化、计算机、人工智能等高新技术的产生与发展,汽车逐渐与这些高新技术进一步紧密融合,通过这些融合促进了汽车智能化快速发展,同时智能车受到全球汽车行业及相关方面专家学者的研究,使得智能车在全球发展迅猛。轨迹跟踪控制是智能车研究的核心技术之一,其对智能车的实用化起到至关重要的作用。和传统前轮转向(Front-Wheel Steering,FWS)智能车相比,四轮转向(Four-Wheel
随着近年来自动化水平的不断提高以及计算机技术与信息技术的不断发展,越来越多的机器视觉手段被引入企业的生产流程当中,通过使用图像识别检测系统对工业组装产品各个器件进行检测,以识别各个器件是否安装正确。机器视觉取代人工作业,对提升检测系统的准确率、降低系统的复杂度与成本,提高劳动生产效率有着重要作用。本文针对汽车保险盒这一类工业组装产品的检测流程,设计了一套基于图像识别的质量检测方法,并进行了大量的实
随着工农业的蓬勃发展以及全球人口的爆炸式增加,人类用水量极大增加,全球约有10亿人生活在缺乏淡水资源的地区。地壳物质孔隙中长期储存的地下水占据着全球97%的淡水资源,是可作为生活用水的优质水体,地下水探测对人类社会尤为重要。核磁共振探测技术因其高效、定量及无损的特性,广泛应用于地下水资源勘探、隧道和高铁水文信息评估、地下水文信息调查及山体滑坡等水文灾害预警。在实际应用过程中,磁共振响应信号极其微弱
近年来,随着中国步入老龄化的时代,受中风疾病造成肢体残障的人群逐渐增多。中风严重危害到患者的身体和身心健康,并给家庭以及社会带来沉重的经济负担。因此,为中风患者提供有效的帮助是当今社会必须面对的重要问题。针对这一问题,本文以下肢康复机器人定为背景,分别从下肢运动意图识别、抗噪型归零神经网络的设计和稳定性分析、基于模型预测控制的被动式康复训练和主动式康复训练三个方面进行研究,解决康复机器人研究中存在
多输入多输出雷达(Multiple Input Multiple Output,MIMO)是一种新型的雷达体系,由于其具有分辨率高、稳定性好、抗干扰能力强和系统自由度高等优点,在信号处理领域得到了广泛的应用。其中,单基地MIMO雷达的波达角度(Direction of Arrival,DOA)估计作为空间谱估计的研究热点之一,得到了国内外学者的广泛关注。传统的DOA估计算法大多是基于高斯噪声的,但
交通环境中的目标检测是辅助驾驶、自动驾驶系统中必不可少的组成部分,基于深度学习的目标检测是当前计算机视觉领域最热门的研究方向之一。本文在国家重点研发计划项目(2016YFB0101102)“电动汽车智能辅助驾驶技术研发及产业化”的资助下,研究如何通过基于神经网络的目标检测方法来实现不论何种工况下,均能够利用车载相机检测出动态目标的位置和类别信息。针对基于神经网络的交通环境目标检测方法展开研究,为平
高功率微波武器是电磁脉冲武器中最为重要的一种,可以在电子对抗作战中制敌于无形,摧毁敌方车辆的机动性,改变战争的走向。有研究数据表明,电磁脉冲对车辆辐照作用时,发动机点火系统受扰失效情况最为严重,因此深入研究车辆发动机点火系统关键零部件的电磁脉冲效应,评估高功率微波辐照作用下点火系统敏感度情况,分析车辆点火系统电磁失效概率具有重要意义。针对高功率脉冲武器多次攻击下车辆点火系统敏感失效问题,本文以某民
伴随着时代的进步和工业的发展,能源短缺和环境污染问题日益严峻,我国的汽车行业面临着严格的国六排放标准,尤其是柴油机的氮氧化物排放问题亟待解决。为了解决这一问题,工程中最常用的方案是加装尿素选择催化还原系统(SCR),进而通过对SCR系统的精确控制实现机外净化,达到大幅降低氮氧化物排放量的目的。在满足国六排放标准的前提下,需要对汽车经济性、排放性和动力性进行统一规划。传统的控制方法难以对日益复杂的柴