【摘 要】
:
随着高通量方法的发展和成本的降低,大量癌症多组学数据被测量出来。例如,癌症基因组图谱(TCGA)已经收集了来自上万名患者的三十多种癌症的基因组、表观基因组、转录组和蛋白质组等信息,而不同的组学提供了癌症样本的互补和独特特征。与单组学分析相比,多组学数据集成具有显著优势,因为它们能够提供更全面的生物过程视图,揭示复杂癌症的原因和功能机制,并促进精确医疗的新发现。因此,需要能够对多组学数据进行全面分析
论文部分内容阅读
随着高通量方法的发展和成本的降低,大量癌症多组学数据被测量出来。例如,癌症基因组图谱(TCGA)已经收集了来自上万名患者的三十多种癌症的基因组、表观基因组、转录组和蛋白质组等信息,而不同的组学提供了癌症样本的互补和独特特征。与单组学分析相比,多组学数据集成具有显著优势,因为它们能够提供更全面的生物过程视图,揭示复杂癌症的原因和功能机制,并促进精确医疗的新发现。因此,需要能够对多组学数据进行全面分析并可靠地集成从不同来源生成的信息以实现癌症分型的方法。近年来,许多整合多组学数据的集成方法被提出。有些方法的集成方式存在缺陷,例如,LRAcluster算法基于低秩逼近的综合概率模型,可以快速找到多种数据类型之间的低维共享主子空间。然而,该算法直接将组学矩阵拼接在一起,这导致具有更多特征的某个组学矩阵会对结果有更大的影响,这可能是不恰当的。有些方法并没有考虑组学数据异质性的问题,例如,SNF算法使用固定参数的高斯核函数为每个组学数据建立样本相似性网络,没有考虑到组学数据分布可能不同的问题。此外,其构建相似网络时使用的KNN算法具有包含噪音边的倾向。有些方法需要自行调整很多参数,例如i Cluster Bayes,这需要花费较多的时间。有些方法可能会丢失组学信息,例如,PINSPlus对每个组学数据单独得出聚类结果之后再进行集成,这可能会分别丢失每个组学数据中微弱的信息。为此,本文提出了一种基于多核的网络集成方法(Network Integration based on Multi-Kernel,简称NI-MK)用于癌症分型,该方法考虑了组学数据之间的异质性,并且其中的核权重系数能根据组学数据自适应地学习,无需手动设置。而且NI-MK中的一致KNN算法使用全局节点的一致信息,使得样本对之间的相似性或不相似性更准确。方法主要分为以下三个步骤:(1)多核模型对每个组学数据构建相似矩阵;(2)一致KNN算法构建局部相似性矩阵;(3)网络集成算法对这些相似矩阵进行集成。为了验证本文方法NI-MK的有效性,首先将NI-MK与SNF、PINSPlus、LRAcluster、CIMLR、i Cluster Bayes方法在七种癌症的多组学数据上进行比较。实验表明,NI-MK在七种癌症上都能区分出具有较大生存差异的癌症亚型,并且平均而言,其癌症分型结果临床显著性最大,比次优的CIMLR方法提高了53.9%,轮廓系数仅次于CIMLR,说明NI-MK能识别出最有效的癌症亚型,并且聚类效果也非常良好。然后,使用NIMK在七种癌症的组学数据类型组合上进行癌症分型,实验结果表明,使用多组学得到的癌症亚型均比使用单组学得到的癌症亚型生存差异更大,而且比单组学中最优的DNA甲基化组学识别出的癌症亚型的临床显著性提高了120.8%,即NI-MK能对多组学数据进行有效地集成,得到更具有临床显著性的癌症亚型。并且大部分情况下集成越多的组学数据类型效果越好。最后,使用各方法在泛癌症多组学数据集上进行聚类实验,结果表明NI-MK取得了最高的标准互信息(NMI),比次高的LRAcluster方法提高了10.4%。NI-MK的调整兰德系数(ARI)也为最大值,比第二大的SNF方法提高了15.7%。说明NI-MK对于有金标数据集准确度较高。
其他文献
随着人工智能技术的不断发展和与制造技术的不断融合,制造行业正在处于向智能化转型的新阶段,智能制造技术已经成为未来制造业发展的必然趋势。与传统机床相比,数控机床具有高效率、高精度、多功能以及自动化程度高等优点,在航空航天、军事装备、能源设备等领域得到了广泛的应用。然而,高档数控机床工作环境复杂多变,加工要求严苛,导致机床性能不可避免地发生退化,严重影响到了机床的生产效率和加工产品的质量。数控机床的可
随着移动互联网的发展,移动端应用从轻量级逐渐复杂化,快速的迭代更新给本就繁重的UI测试工作带来了更大的压力,尤其是回归测试这类重复性较高的测试;而专业的自动化测试人员较为缺少,许多自动化测试工具学习成本较高,对普通的开发和测试人员并不友好。为解决上述问题,本文将使用微服务架构研发一款使用简单、易上手的移动端UI自动化测试平台:平台将通过浏览器管理自动化测试中的数据资料,并提供用于执行自动化测试脚本
随着互联网技术的发展和应用创新,人们的互动交流方式发生了很大的变化。近几年来,直播平台、视频弹幕网站等应用发展迅速,直播刷屏、视频弹幕等新型即时消息互动形态越来越受到广大网友特别是年轻网友的欢迎。面对这种参与人数众多、互动强度极大的消息收发场景的严峻考验,设计一套高性能、高可靠、弹性好的即时消息系统成为保障互动体验的关键。随着云计算技术的发展,云原生成为了互联网技术领域最炙手可热的话题。以Dock
图像超分辨重建技术由于深度学习技术的迅速发展而得到快速的发展,其性能指标也在公共数据集的测试中超越了传统算法。但是,随着卷积神经网络的不断发展,网络模型在深度和宽度上也不断增加,致使其前向推理存在很大的计算量以及参数量,在实际工程中难以实用。针对目前基于卷积神经网络的单图像的超分辨网络模型复杂度较高这一难点问题,本文主要研究设计了轻量化的单图像超分网络模型。本论文围绕单图像超分辨开展了研究,通过结
为深入探讨服装品牌线上直播营销可行性策略,优化消费者对女装类产品的直播购物体验,从而提升购买意愿,对电商平台女装品牌直播间要素、消费情感、购买意愿理论文献进行研究分析,基于文献提取女装品牌直播要素5个维度,结合女装品牌案例进行问卷调研实证研究,通过结构方程模型对研究理论模型进行验证。研究结果表明:女装品牌直播对购买意愿直接影响最大的是消费情感,其次是商品特性。网络主播吸引力对消费情感的影响力最强,
在当今世界中,无论军事领域或是民用领域,无人机的应用都已经成为热门的研究对象。面对多样性的任务和复杂的环境单一的无人机通常无法满足需求,而多无人机依靠有效的协同策略以及无人机自身不同的功能,可有效解决无人作战、目标搜索、通信中继等许多棘手的问题。多无人机的协同编队是任务执行中的重要一环,本文以四旋翼无人机为研究对象,对多四旋翼无人机在协同编队中的几个热点内容进行了设计和实现。首先针对编队队形的保持
随着智能社会的发展,人们对信息安全、信号的存储与计算等领域提出了更高的要求,但受限于带宽、功耗等电子瓶颈,传统的电器件难以进一步提高信息的处理与传输速度。因此,具有高带宽、高速率的基于半导体激光器的信号生成与处理方式逐渐成为了人们研究的热点。垂直腔面发射激光器(Vertical cavity surface emitting laser,VCSEL)因其具有低阈值电流、低功耗、与光纤耦合效率高和易
随着空间技术的发展,卫星网络逐渐成为通信网络领域中重要的研究对象。低轨道(Low Earth Orbit,LEO)卫星具有业务传播时延短、建设成本低等优点,一直是卫星网络研究的重点。但是由于LEO卫星网络拓扑时变以及地面用户流量分布不均衡导致卫星负载不均衡,为LEO卫星网络设计有效可靠的路由算法是卫星网络研究的焦点之一。并且随着网络多媒体业务的发展,人们对的网络的服务质量(Quality of S
目前,对于第六代移动通信系统的研究正处于起步阶段,卫星物联网作为其重要组成部分,与地面物联网相互协作,以实现全球无缝覆盖的目标,建立一个真正“万物互联”的世界。得益于低轨卫星制造成本低、传输距离短等优点,国内外纷纷掀起低轨卫星星座组网热潮。然而可用的频轨资源是有限的,如何通过稀缺的频谱资源为更多用户的信息传输提供服务,已成为当前低轨卫星通信的研究热点。稀疏码多址接入(Sparse Code Mul
外骨骼机器人能增强人体能力,在民用、医疗和军事等领域有广泛应用需求。针对下跃过程中地形多变、瞬时性强等问题,需要为外骨骼机器人设计快速场景识别模块,来实时识别下跃场景的类型。场景识别可通过深度学习模型来完成。然而深度场景识别模型参数量和计算量大,使其难以部署于实时性要求较高的嵌入式设备上。模型压缩技术能减少模型推理时的内存占用量和计算量,提高模型的推理效率,从而缓解深度学习中模型部署的困难。考虑到