【摘 要】
:
组学数据在生命科学和临床医学的研究上具有广泛的用途和很大的潜力,单细胞转录数据能准确分析每个细胞的基因表达、区分不同细胞群体、发现新的细胞类型。但单细胞转录数据上万维的特征,从直观上难以理解,也带来了计算上的困难,且可能掩盖真正潜在的低维结构。将高维数据投影到低维子空间是挖掘此类数据内在特征的一个有效方法。然而,单细胞转录数据噪声大、覆盖率低且存在大量的dropout事件,直接使用传统的降维方法存
论文部分内容阅读
组学数据在生命科学和临床医学的研究上具有广泛的用途和很大的潜力,单细胞转录数据能准确分析每个细胞的基因表达、区分不同细胞群体、发现新的细胞类型。但单细胞转录数据上万维的特征,从直观上难以理解,也带来了计算上的困难,且可能掩盖真正潜在的低维结构。将高维数据投影到低维子空间是挖掘此类数据内在特征的一个有效方法。然而,单细胞转录数据噪声大、覆盖率低且存在大量的dropout事件,直接使用传统的降维方法存在效率低下的问题。为了克服这个问题,本文提出了一种基于网络的单细胞数据降维框架分别包括基于单细胞异构网络的降维流程和基于单细胞同构网络的降维流程,这个框架适用于大部分的降维算法。本文的主要研究如下:第一,单细胞异构网络是由细胞节点和基因节点组成的二部图网络,在单细胞转录数据中,相同类型细胞的基因表达情况应该类似,表现为细胞节点之间的边的组成应该类似,基于此提出了单细胞异构网络的降维流程(SCHeN)。利用LINE和node2vec算法(分别命名为SCHeN_LN和SCHeN_NV)根据异构网络细胞节点的二阶相似性进行降维。对这些降维结果用评价指标WB、NMI和ARI及其二维可视化进行综合的评价。基于SCHeN的实验结果显示优于直接聚类和传统的PCA及t-SNE方法,其中SCHeN_LN在5个单细胞数据集上的表现良好且稳定。第二,在单细胞同构网络的降维流程(SCHoN)中,把每个单细胞转录数据样本看成网络中的一个节点,该节点中的基因表达值看成是节点的特征,通过计算顶点之间的Spearman相似度系数来作为构建边,由此得到单细胞同构网络。利用UMAP、ProNE和DeepWalk(分别命名为SCHoN_UM、SCHoN_PN和SCHoN_DW)对单细胞同构网络进行降维,同时结合GCN和VAE设计了SCHoN_GCN_VAE模型。SCHoN_UM在5个单细胞数据集上的表现良好且稳定,SCHoN_GCN_VAE在较大数据集上有一定的优势。第三,将基于网络的单细胞数据降维框架应用在人体脑区的基因表达的蛋白质测序数据降维上,找出急性脑梗数据和健康对照组数据间样本的差异性,并对它们进行功能富集分析,找到了与急性脑梗相关的基因SERPINF2及一些与急性脑梗相关症状有关的信号通路,如补体和凝血级联(Complement and coagulation cascades)和原发性免疫缺陷、血液病、神经系统疾病、血管疾病以及先天性代谢紊乱有关,这与急性脑梗会影响人的神经系统、免疫系统和心血管系统相吻合。
其他文献
以微流控通道为核心分析设备由于其具有便携性、低功耗、自动化、样品和试剂消耗少等优点有望取代传统的生化分析设备在生物技术、药物检测、环境分析等许多领域中的应用;基于光子晶体及金属等离子激元特性的生化传感器由于其灵敏度高、响应速度快、可以实现生化样品的实时监测等优点正受到越开越多研究者的青睐。本文围绕可以在微流通道下构建的胶体基光子晶体结构为研究核心,在微流通道下成功构建了含有聚苯乙烯微球光子晶体结构
脚本事件预测是指给定一系列已经发生的事件,预测后续发生的事件。该任务对于许多自然语言理解应用至关重要,例如文本理解、意图识别和问答系统。脚本事件预测是事件抽取的下游任务,目前还存在数据集缺乏、事件表示不全面、信息融合不充分等问题。现有的方法尚不能很好地解决这些问题。本文以脚本事件预测为研究课题,主要研究内容如下:首先,构建了一个基于新浪新闻的中文数据集SinaNews。目前,脚本事件预测任务仅有一
随着数据的飞速增长,推荐系统成为连接用户和数据的重要桥梁。通过对用户历史行为进行分析,推荐系统能够有效地挖掘出用户的偏好,完成各种类型的个性化推荐任务。在推荐系统如此重要且火热的当下,也面临着诸多挑战。在互联网数据飞速增长的同时,单个用户的交互数据却少之又少,这带来了严重的数据稀疏的问题,想要每个用户的静态偏好都得到准确且充分的表征变得十分困难。其次,当下正处于动态变化的世界,每一秒都有百万甚至千
“村村通客车”是我国交通运输部门在“十三五”制定的农村客运服务实现的硬性目标,以解决我国偏远村屯居民出行不便的问题。作为普遍存在的农村客运班线服务的一种补充,一种新型的农村客运服务形式——预约响应式农村客运开始在我国部分偏远农村地区出现。目前,预约响应式农村客运尚处起步阶段,由于该客运服务形式的运营成本较高,目前普遍处于亏损状态,“开得通、留不住”的问题仍旧凸显。另一方面,农村物流面临同样困局。由
全文自索引技术是指在庞大的文本资料上所建立的一种数据结构。该结构可以在原文档集合中实现高效的模式串计数、定位查询等工作;同时自索引区别于传统索引,不用储存原文就可以将原文完整地还原出来。庞大的信息虽然给人们带来了极大的便利,但也给信息检索带来了很大的挑战:一是由于信息量过于庞大,索引的空间占据也会很大;二是信息中重复太多,很多索引无法利用文档的重复性,使得索引的效率非常低。因此,对于全文自索引的研
随着社会经济水平的提高,我国变电站的规模和输电电压等级都在不断提高,变电站的巡检工作所需要的安全性和可靠性的要求也在不断提高,若使用传统的人力巡检,不仅容易发生错误,而且危险性也随之提升。巡检机器人的出现不仅提高了巡检工作的安全性,而且巡检的效率也大大提高。但传统的有线充电方法对巡检机器人的灵活运行有所限制,有线充电的接口来回插拔也容易引起安全事故,尤其在雨雪天气下。而将无线充电技术应用到变电站的
面对日益突出的能源紧缺和生态环境问题,电动汽车产业已成为汽车工业转型升级的主要方向。随着电动汽车大规模接入电网,给电力系统运行的安全稳定性带来了巨大挑战,同时为智能电网的发展注入了生机和活力。由于电动汽车充电站的调节能力和能量管理策略严重依赖于电动汽车的数量和电池性能,如何实现精准预测是当前的一大难点。本文以环境温度对锂电池性能、车载空调能耗的影响为切入点,重点研究环境温度对充电站调节能力和能量管
多点协作通信由于具有扩大传输范围和增大接收功率等优势得到了关注。然而,由于传输信道的开放性,在多点协作通信中会面临信息容易遭到截获、攻击以及破坏等安全问题。其中,信息被窃听者进行截获是更为普遍的安全问题。由于协作节点位置分布不同,形成的旁瓣波束往往是不对称且拥有较高辐射功率,窃听者容易捕获到信号,这使得通信传输过程面临巨大的安全隐患。因此,本文关注于旁瓣高辐射功率造成通信安全问题,提出使得窃听区域
国家数字科学技术研究所(INRIA)是法国的一个数字科学研究机构,旨在促进科学的发展。作者在这个研究中心的工作是围绕一个主要项目展开的:在Unity中使用Steam VR,用C#语言实现虚拟现实体验,使用电触觉设备进行Tactility(欧洲项目Horizon 2020)。这个实验的目标是展示如何使用电触觉设备来提高VR的沉浸感。电触觉的原理是发送电刺激来模仿触摸的感觉。电触觉反馈装置目前还只是一
环境污染、能源短缺问题日益严重,开发清洁可再生的新型能源刻不容缓。氢能凭借其清洁无污染、来源丰富可再生的优点被广泛关注。电解水是一种绿色的制氢方法,水在电解时,阴极发生还原反应产生氢气,而阳极发生氧化反应产生氧气,过程中不产生污染物。在实际生产反应中,需要选择合适的催化剂来降低析氢与析氧过电位,以节约能耗。目前最好的析氢催化剂是贵金属Pt,析氧催化剂是IrO2,然而高成本、低丰度的特点限制了贵金属