【摘 要】
:
随着现代测序技术的发展,研究者们把研究重点从单个基因转向环境中全部物种的测序基因,而这种直接从环境中获取全部基因组的遗传物质进行研究的方向,被称为宏基因组学。宏基因组分箱是宏基因组学研究的重要步骤,其目的是尽量多的将混在一起的测序序列恢复成原始基因组。由于宏基因组数据的特性,直接应用聚类算法到分箱领域效果会很不理想,传统的方法大多会为数据特征建立概率分布模型,利用不同序列之间概率分布的距离来度量序
论文部分内容阅读
随着现代测序技术的发展,研究者们把研究重点从单个基因转向环境中全部物种的测序基因,而这种直接从环境中获取全部基因组的遗传物质进行研究的方向,被称为宏基因组学。宏基因组分箱是宏基因组学研究的重要步骤,其目的是尽量多的将混在一起的测序序列恢复成原始基因组。由于宏基因组数据的特性,直接应用聚类算法到分箱领域效果会很不理想,传统的方法大多会为数据特征建立概率分布模型,利用不同序列之间概率分布的距离来度量序列之间的距离,最后通过此距离完成聚类。由于计算复杂度过高,传统方法大多采用近似建模的方法简化计算,会造成信息损失。本文将深度表示学习应用到宏基因组分箱这一领域,将特征映射到一个新的嵌入空间,在此嵌入空间中用常规的方法直接计算距离,避开了复杂的建模过程。本论文首先将基于维米尔费舍尔分布的变分自编码器引入宏基因组分箱这一领域,接着改进了聚类算法中寻找聚类中心的过程。利用变分自编码器将输入特征映射为高维球面上的一个分布,将嵌入后的向量计算相似度作为聚类依据。该分布通过给信息散度一个天然的下界避免训练过程中信息散度的消失。随后改进聚类中心的寻找方法,将初始选中的样本点阈值距离内的所有序列到该样本距离之和作为该点的密度,迭代寻找具有最大密度的样本点作为聚类中点。在与常见的聚类算法对比中可以看出,综合考虑精准率和召回率的均衡平均数与以往方法相比有明显提升,且多次聚类后发现聚类结果稳定性高,有效降低了初始聚类中点的随机选取带来的影响。本文在上述研究的基础上提出了DGRBin模型并首次将图比对学习应用在宏基因组分箱领域,利用图比对学习融合先验约束信息。先验约束信息是将测序序列与标准数据库中的标注序列进行比对,将属于同一个基因组的序列对关系称为联通约束,不属于同一个基因组的序列对关系称为非联通约束。获取图比对学习的嵌入向量后将其作为聚类算法的输入。此外在原有的聚类算法基础上增加聚类后处理的过程,使未被分配的序列重新聚类到已有的可信簇中。与未改进前的模型以及多种已有的分箱工具对比后发现,本文改进后的模型效果在宏基因组分箱领域取得较大进步,尤其在恢复的基因组完整度方面有所突破,相比此前方法恢复了更多有效基因组。
其他文献
随着互联网和多媒体信息技术的发展,每时每刻都有巨量的数字信息在互联网上传播。由于数字图像能够直观、生动形象地表现信息,数字图像成为人们互相传送信息的主要媒介之一。数字图像往往具有很大的数据冗余性,且部分图像包含大量隐私或者机密信息,因此如何保证数据安全性并提高数据传输效率得到广泛的研究。压缩感知,作为一种能以低于奈奎斯特采样定律进行采样的技术,已被广泛应用到当前的图像压缩加密研究中。然而许多现有的
一直以来,拥有一个能够与人类进行交流,完成人类通过语言下达的任务的通用机器人是人类的梦想。而现在,计算机视觉以及自然语言处理等领域的研究取得的巨大突破,让这个梦想逐渐变为现实。视觉语言导航(Vision-andLanguage Navigation)任务被认为是实现通用机器人的基础性任务,在该任务中,智能体接收关于导航路径的自然语言指令,并在指令的指导下自主行走到目标点。该项任务的难点在于理解非结
背景肝细胞癌(Hepatocellular carcinoma,HCC)是病死率较高的恶性肿瘤之一。HCC由各种复杂的危害因素引发,多形成于慢性肝病或肝硬化的基础上。目前,针对肝细胞癌的治疗有限,大多数患者总体预后较差。因此,仍需进一步探索更多针对HCC的防治策略。近年来,研究表明一些中药单体对癌细胞增殖、转移及癌组织血管生成具有显著的抑制作用,且具有无副作用及不良反应等优势。黄芪甲苷(Astra
背景与目的 各种致病因子均可导致肝脏的急慢性炎症。长期的肝组织炎症状态致使肝纤维化的发生,而这将使肝癌的患病风险增加,对健康产生严重威胁。天然药物黄芪的有效成分为黄芪甲苷(AS-Ⅳ),有报道指出AS-Ⅳ具有抗炎、抗氧化等生物活性,并可通过调节Nrf2/HO-1和TGF-b1/Smad3途径抑制肝纤维化发展。Nrf2在受到氧化应激等刺激后,磷酸化后入核,刺激下游抗氧化基因的表达,产生肝保护作用;Sm
近年来,随着基因测序技术的发展,全球积累了大量的组学数据。已有的相关研究表明,全球的生物数据总量以每15到18个月翻一倍的速度增长。生物信息学这门学科的出现就是为了充分利用这些数据信息,揭露出潜藏在复杂生命活动下的规律。模块分析方法一直是对全基因组学数据进行分析的基础性方法。基因模块被定义为具有相似功能和调控模式的基因集合,通过将全基因组划分为多个这样的基因模块,可以将一个大型复杂的生命系统拆解成
随着移动互联网的快速发展,各类线上交易兴起的同时也催生了许多黑色产业。为了打击诸如垃圾注册、刷单、薅羊毛等黑产的行为,提高恶意欺诈及骗贷等作案成本,移动设备指纹技术应运而生。目前移动设备指纹研究多针对移动设备的运动传感器数据,依靠人工提取特征然后结合传统机器学习算法对设备进行分类识别。然而此类方法只适用于静止场景,在运动场景下对人类活动等噪声高度敏感而难以适用。此外,通过运动传感器数据可以推断出用
细胞是所有生命活动最基本的单位,它的结构与功能一直是科学家们的研究重点。每一个细胞都是独一无二的,它们在特定的位置上完成着特定的功能。之前大多数的基因测序都是针对于整块组织样本或细胞群,这样测量得出的平均基因表达量可能会掩盖细胞间的差异。为了更好地在细胞基因层面上进行研究,单细胞测序应运而生。单细胞测序可以通过仪器测量出每个细胞中每个基因的表达量,这样研究人员可以在单个细胞粒度上进行分析。由于目前
目的:研究牡荆素调控iRhom2信号介导血管内皮细胞焦亡对急性心肌缺血再灌注损伤的保护作用及其潜在机制。方法:1.人冠状动脉内皮细胞(HCAEC)细胞分为:(1)control;(2)H/R;(3)H/R+VT-5μM;(4)H/R+VT-10μM;(5)H/R+VT-20μM。LDH试剂盒和CCK-8分别检测细胞损伤与细胞活力;Annexin V-FITC/PI试剂盒检测细胞凋亡;免疫荧光染色和
缺血性脑损伤是一种临床上的常见病,残疾率和死亡率居全世界的前几位。其发病机制复杂,临床治疗效果不理想,严重影响了人们的生活和工作。硫化氢(Hydrogen sulfide,H2S)被称为除一氧化碳(Carbon monoxide,CO)和一氧化氮(Nitric oxide,NO)之外的第三种内源性气态信号递质,多年的科学研究揭示脑组织中存在生理浓度的H2S。内源性H2S可通过胱硫醚-γ-裂解酶(L
背景:心肌梗死(Myocardial infarction,MI)是导致心力衰竭(Heart failure,HF)高发病率和高死亡率的主要风险因素之一。心肌尔康(Xin-Ji-Er-Kang,XJEK)是一种由人参、黄芪、麦冬、玉竹等14种药材组成的中草药验方,已经被证明在心梗小鼠模型中具有对心脏功能的保护作用。目的:探讨心肌尔康能否通过抑制内皮间质转化(Endothelial-to-mesen