基于参考物种标签约束预训练的宏基因组DNA序列深度聚类算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:likelikeme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组学利用新一代测序技术能在不经过实验室培养的情况下,获取环境中绝大部分的微生物遗传物质(DNA),再利用基因组学的研究策略研究环境样品中微生物的遗传组成及其群落功能。近年来宏基因组学在人类、动物、植物和环境中的研究越来越广泛,与传统的测序方法不同,宏基因组测序得到的原始数据是大量长度较短的、来源于多种微生物的DNA片段。根据DNA片段之间的重叠关系可以将它们组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重叠群序列(contigs)。由于组装的重叠群序列得不到完整基因组,需要重叠群的分箱(Binning contigs)把重叠群按物种划分,如何有效划分宏基因组DNA重叠群是当前研究的重点和难点,目前还存在一些问题,例如:1)聚类性能有待提高:传统聚类算法不能够区分近邻物种;2)聚类个数的确定:目前确定聚类个数相较于真实物种的个数有一定差距;3)重叠群特征:重叠群样本的特征分布存在聚类“不友好性”的问题。为解决以上问题,本文提出一种基于已知参考物种标签约束预训练的宏基因组深度宏基因组重叠群聚类算法(Label-Constrained Deep Clustering,LCDC),主要工作如下:(1)构建基于4-mer频率的预训练数据集,根据不同群落下物种分布的比例分别构建了人体肠道、土壤、海洋微生物环境的群落样本集。下载群落样本集中全部的基因组序列,按比例截取成预训练序列,计算每条序列的4-mer特征频率,用对比最大值方法归一化4-mer特征频率得到人体肠道、土壤、海洋环境下的预训练数据集。(2)设计一种基于已知物种标签约束预训练的方法解决宏基因组重叠群近邻物种聚类问题。通过预训练建立的五层具有对称结构的深度自编码网络,使其更易于对具有相似特征的近邻物种间的重叠群分箱。由于仅使用网络重构误差作为预训练损失函数,不能够很好的完成宏基因组重叠群分箱工作,基于此,本文设计了基于已知物种标签约束预训练的方法,使用已构建的三个群落预训练数据集作为输入分别预训练网络,损失函数包括网络重构误差和物种标签约束误差,物种标签约束误差使用以e为底的指数函数,使用Adam优化器最小化预训练损失函数用以预训练网络,将预训练后得到的网络保存。本文基于已知物种标签约束预训练的方法通过减小物种标签约束误差的方法增大了相似物种间网络的隐层表示特征。(3)设计了联合预训练的深度K-means宏基因组重叠群聚类算法,本文为解决宏基因组重叠群样本中存在聚类“不友好性”的问题,设计了联合预训练的深度K-means宏基因组重叠群聚类的边学习边聚类的方法。使用标签约束预训练保存的网络作为初始化后的网络,把DBI指数作为宏基因组重叠群聚类个数的评价指标,损失函数包括网络重构误差和聚类误差,使用Adam优化网络。本方法解决了宏基因组重叠群样本中聚类个数不准确和聚类“不友好性”的问题。最后对本文的LCDC方法和现有的宏基因组重叠群自动化分箱方法做了对比实验,得出本文方法优于目前其他方法。综上,本文设计的联合预训练的深度宏基因组重叠群聚类方法,解决了对宏基因组重叠群中相似物种间存在的相似特征导致分箱不准确、对重叠群分箱个数不准确和重叠群中存在的聚类“不友好性”的问题,为宏基因组重叠群分箱领域的研究提供了支持。
其他文献
报纸
冰雪环境长期存在于我国东北,西北等广袤的地域中,寒冷地区的车辆长期处于冰雪环境这种特殊工况中。由于冰雪环境的影响,汽车在道路上的行驶环境变差,时而会发生打滑的情况,乘员舒适性变差,驾驶员容易出现精神紧张等不适感觉,从而严重影响驾驶安全性,这些因素使得冰雪环境下的智能驾驶更有意义。而决策规划算法的研究是智能驾驶研究中最具挑战性的课题,本文研究冰雪环境下的智能驾驶,具体研究内容包含以下几个方面:(1)
学位
随着无人机技术与人工智能技术的蓬勃发展,携带相机等视觉传感器完成机器视觉任务的无人机表现出优异的性能。近几年随着深度学习的发展,目标识别与跟踪技术迅速发展,搭载目标识别与跟踪算法的无人机平台在人机交互、智慧交通、军事等领域中有被广泛应用,使人们生活更加智能化。然而无人机在进行目标识别与跟踪的过程中,存在着目标距离较远、分辨率低、尺度变化等问题,为了解决上述这些问题,使无人机能够精准地识别并跟踪目标
学位
报纸
随着社会经济发展,农村建设的速度越来越快。从目前新农村建设来看,农村的留守儿童越来越多,由于各种原因,留守儿童学前教育问题显得尤为突出,如政府财政投入有限、教师的专业化程度相对较低、家庭教育得不到重视等,这些问题的存在影响了留守儿童的身心健康。为了解决留守儿童的问题,国家对农村留守儿童教育问题越来越重视,增加了对农村留守儿童学前教育的投入,改善学前教育办学条件,提升教师的专业水平,并更加重视家庭教
期刊
心冲击信号(Ballistocardiogram,BCG)是由人体的心脏搏动泵出血液在血管内产生冲击力传播到体表的微弱震动信号,利用柔性传感器可无接触采集BCG信号,实现对心脏和身体健康无创、无干扰的长时程监测,在居家养老、远程医疗和辅助疾病诊断方面有巨大的应用潜力。然而,由于采集BCG信号的传感器具有高灵敏度和对运动的敏感性,采集到的BCG信号极易受到噪声干扰。造成干扰的内因包括人体脏器、肌肉,
学位
宽带频谱感知技术旨在通过对宽带频谱的直接观测来检测出其中所存在的主用户信号,进而实现频谱资源的高效重复利用。压缩感知为实现宽带频谱的低速率采样提供了相应的理论基础。然而,由于在实际的认知无线电系统中,主用户和认知用户之间往往不存在信息上的交互,从而使得传统压缩感知算法无法获取信号稀疏度的先验知识,给算法的信号重构性能带来影响。另一方面,主用户对授权频段的占用往往是随时间变化的,这使得宽带频谱的稀疏
学位
合理利用煤炭资源是长期发展的必要条件,为了能够提高煤炭的利用率,提升经济效益,需对不同热值的煤炭进行配比燃烧,以消耗更少的煤炭达到目标发电量或温度。论文采用高光谱成像技术结合机器学习的方法,联合空间信息和光谱信息建立煤炭热值检测模型,实现对煤炭热值准确、高效、无损地检测。首先,研究煤炭不同水分含量、粒度等级和密度等级对平均反射光谱的影响。实验分析表明,对于同一样本,在一定范围内煤炭的平均光谱曲线高
学位
模型预测控制也被称作滚动时域控制,它在每个采样时刻求解一个优化问题,可以处理系统约束。非线性系统的模型预测控制通常需要求解非凸优化问题,在线计算负担重,求解时间长。非线性模型预测控制的快速实现策略对于非线性模型预测控制应用具有重要影响。基于Koopman算子理论,利用非线性系统的输入一输出数据可得系统高维全局线性化模型,在理论上能够保留系统的完整非线性特性。经典Koopman算子理论讨论无穷维自治
学位
准确预测周围车辆的行为和轨迹是自动驾驶车辆等智能系统实现安全高质量决策和运动规划的必要前提。北方寒冷地区由于冬季道路条件变差引发的交通拥堵及安全问题日益严重,冰雪环境下道路条件复杂,交通车行为的随机变化概率增加,所以深入研究冰雪路面下的周车行为轨迹预测问题有着很大的现实意义和理论价值。为此本文研究如何对周车行为轨迹进行交互性预测、实现针对冰雪环境下周车行为轨迹预测以及智能车辆的碰撞风险评估,具体研
学位