生物组学大数据智能分析关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:luoshibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以高通量测序为代表的各类测序技术的进步,医学图像生成和分析技术的发展以及多个大型基因组测序机构的建立,大量具有统一标准的分子水平组学数据和医学图像数据得以生成和公开,生命科学领域进入了以海量多元组学数据为特征的大数据时代。针对生物组学大数据的智能分析与挖掘是促进精准医疗进步的重要举措,但生物组学大数据的特性也对智能分析关键技术提出了巨大挑战和要求。生物组学大数据中的组合爆炸、维度灾难、可解释性和数据异构性等问题严重阻碍了现有智能分析技术在精准医疗领域的应用。针对生物组学大数据的智能分析算法研究,将有助于快速且准确地挖掘组学数据中蕴含的丰富生物医学知识。为此,本文以生物组学大数据为对象,针对单组学特征识别、单组学数据表征和多组学数据表征及融合等智能分析的关键问题展开研究,并应用于生物标志物识别和疾病诊断与预后预测。本文的主要研究内容、创新点和贡献包括以下几方面:(1)针对高阶SNP识别中的组合爆炸问题,本文以一种新型群智能优化算法——入侵肿瘤生长算法为基础,提出了基于两阶段搜索策略的离散入侵肿瘤生长算法DITGOssi(Discrete Invasive Tumor Growth Optimization SNP-SNP Interaction)。在DITGOssi中,首先针对高阶SNP识别中的离散特性和时效性要求设计了一种离散入侵肿瘤生长算法DITGO。然后通过一种两阶段搜索策略来进一步提升DITGO在高阶SNP识别任务中的全局搜索能力。实验表明,与传统群智能优化算法相比,在高阶SNP识别任务上DITGO有一定的优势,但传统的群智能优化算法和DITGO都无法很好的处理无边际效应的SNP数据。而与常见的高阶SNP识别算法相比,DITGOssi则能同时在有边际效应和无边际效应的两类数据中都获得较为显著的性能提升且优于DITGO。(2)针对转录组学数据表示学习中的维度灾难和可解释性问题,本文基于图卷积神经网络设计了一种直推式的半监督学习方法——分层图卷积神经网络Hi GCN(Hierarchical Graph Convolution Network)。该方法同时考虑了样本空间中的样本相互作用和特征空间中的特征相互作用,通过同时聚集两个空间中的邻居信息来获得更优的转录组学数据的表征。过平滑是图卷积神经网络应用中的常见问题,而同时在两个空间中进行信息聚集时该问题会愈加严重,为此Hi GCN设计了特征加权层进行缓解。在特征空间和样本空间进行信息聚集的网络分别被称为稀疏图卷积神经网络和特征加权图神经网络。此外,HiGCN可提供与预测目标相关的重要特征,这些特征能够为模型的预测结果提供可解释性。本文通过模拟数据集和真实数据集的疾病分型和生存分析实验,验证了HiGCN相较于对比算法具有更优的转录组学数据表征能力和可解释性,能够进行更准确的疾病分型和生存分析。(3)针对多分子组学数据融合中的维度灾难和数据异构性问题,本文提出了一种多组学有监督自动编码器模型MOSAE(Multi-Omics Supervised Auto Encoder)进行多分子组学数据融合。首先,针对各组学数据特性,MOSAE设计了一种组学特异的自动编码器对不同的单组学数据进行表征。然后,考虑到一般的自动编码器都是以无监督学习的方式进行表示学习,但监督信息对于组学数据的表征至关重要,因此MOSAE中加入了两类监督信息进行融合表征学习。通过有监督自动编码器和组学特异自动编码器的结合能够迫使MOSAE同时学习到任务特异和组学特异的表征。最后本文通过四种临床终点预测实验表明,MOSAE相较于对比算法有更优的多分子组学数据表征和融合性能,能够进行更准确的临床终点预测。(4)针对分子与图像组学数据融合中的维度灾难和更严重的数据异构型问题,本文基于多任务关联学习提出了一种多模态融合框架Multi Co Fusion。首先,利用Res Net-152和稀疏图卷积网络对分子组学(即转录组学)数据和图像组学(即病理组学)数据分别进行表征。随后,两类数据的表征通过拼接的方式融合并输入前馈神经网络中进行融合表征和多任务共享表征的学习。在Multi Co Fusion中主要通过交替训练的方式进行多任务学习。通过等级分类和生存分析实验表明,Multi Co Fusion框架相较于对比算法具有更优的转录与病理组学数据表征和融合性能,框架中的两类任务具有较强关联性,多任务学习的策略能同时显著提升生存分析和等级分类性能。
其他文献
近年来,拓扑材料以其新颖的物理性质引起了人们的广泛关注,由于具有良好的拓扑稳定性,在电子器件中具有潜在的应用前景。最开始的时候,人们对绝缘体(或半导体)的拓扑分类进行了大量的研究,例如量子霍尔效应中的拓扑量子态,这是超脱著名的朗道理论框架的新的分类机制。这种分类是鼓舞人心的,因为多年来自发对称破缺的框架已经成功地用于凝聚态的量子态分类。在对量子霍尔效应研究的基础上,人们提出了拓扑绝缘体作为第一类本
水下焊接在海洋工程、核电核岛以及水利工程等的水下结构物连接和在役维护中发挥着关键性的作用。局部干法水下MIG焊接(Local Dry Underwater Metal Inert-gas Welding,LDUW-MIG)采用小型排水装置将待焊局部区域的水排干并进行焊接,不仅集成了湿法操作简单、成本低的优点,同时又具备干法对电弧保护的效果,是一种非常有前景的水下结构物的焊接方法。然而,水的导热系数
作为一种难降解持久性有机化合物,双氯芬酸(Diclofenac,DCF)在水体中的残留对人体健康和水环境安全构成潜在威胁,近年来倍受关注,需要研发高效降解技术消减水中DCF。由于DCF降解的关键问题是脱氯与深度矿化,为此,本论文以DCF为目标污染物,提出了利用生物电化学系统(Bioelectrochemical system,BES)阳极还原DCF和阴极深度矿化其脱氯产物的技术策略,制备了Ru/F
中、高体积分数的Si C颗粒增强铝基复合材料具有尺寸稳定性好、高比强度、高比刚度和耐磨等特性,在国防装备、航天航空及精密仪器等领域应用广泛。但由于Si C颗粒与铝基体的化学和物理性质差异大,造成此类复合材料的界面结合弱、塑性低和加工难等问题。合理地选择增强体并获得理想的界面结合是提升复合材料综合性能的重要途径。高熵合金(High-entopy alloys,HEA)因其优异的力学性能,且能与金属基
金属卤化物钙钛矿具有较大的光吸收系数、较高的荧光量子效率、可调的能带宽度、较长的载流子扩散距离等优秀的光电性能。近10年以来,金属卤化物钙钛矿材料在太阳能电池、显示、光电探测、激光等光电领域展现出突出的应用价值。钙钛矿量子点具有量子限域效应和独特的激子精细结构,能够实现比其块体材料更优异的光学性能。但是,比表面积更大的钙钛矿量子点更容易受到高温、强光、潮湿、氧气等外界环境的影响,其晶体结构会受到破
骨是一种具有复杂分级结构的天然生物复合材料,表现出优异的力学性能,兼具强度和韧性。骨分级结构和优异力学性能之间的关系仍然是重要的课题,相关的研究能够为治疗骨疾病和开发高性能仿生复合材料提供重要的理论依据。骨分级结构在不同空间尺度和时间尺度上表现出的塑性形变和增韧机理,仍然缺乏系统性的、深入的研究。本研究通过设计的新型原位力学测试平台,主要围绕探究骨结构和力学功能之间的关系,为不同尺度上的骨结构与形
技能型社会是大众通过技能媒介建立联系并主动开展技能学习、使用、传播等一系列行为的社会常态。国家重视技能、社会崇尚技能、人人学习技能、人人拥有技能是技能型社会的基本构成要素,四部分环环相扣、互为补充,发挥技能型社会建设的协同效应。作为职业教育长期发展的历史必然和顺应发展的全新命题,技能型社会同职业教育具有天然耦合性,它既是凸显职业教育类型定位的综合体现,也是凝聚职教战线合力的重要抓手。构建技能型社会
酶作为天然生物催化剂,具有高催化效率、高选择性和生理毒性低等优势,在制药、食品、精细化学品合成及环境检测等领域有着广阔的应用前景。然而,工业酶的应用往往由于其本身脆弱的性质,如操作性差、耐热、耐有机溶剂性能差以及存储稳定性差受到严重的限制。为克服这些问题,通常将酶固定于生物相容性较好的多孔固体材料。金属有机框架材料(Metal-Organic Frameworks)是一种由无机金属离子与有机配体通
由强降雨引起的大直径复合支柱绝缘子闪络严重威胁着超/特高压直流工程的安全稳定运行。目前,国内外针对大直径复合支柱绝缘子在淋雨条件下闪络特性的相关研究较少,对于与放电密切相关的伞檐雨滴形变研究尚属空白,对绝缘子伞檐雨滴形变规律及其影响放电作用机制、以及各种因素对闪络电压的影响规律等认识还不完善,强降雨地区大直径复合支柱绝缘子的伞裙结构参数仍有较大的优化空间。本文依托特高压工程技术(昆明)国家工程实验
兼具功能和结构双重属性的多孔结构,因拥有优异的综合性能而在机械、能源、化工、医学、建筑、电子、航空航天等诸多领域具有广泛的应用。多孔结构的孔隙是影响其功能的主要因素,所以,对于孔隙形状及分布的控制成为多孔结构设计的主要内容。本课题以多孔结构的“功能―属性―结构―工艺”设计模式为主线,以多孔结构参数之间的映射关系为理论基础,以点阵型和曲面型两种结构类型为研究对象,分别以立方体和六面体网格为单元体进行