论文部分内容阅读
近年来,随着高通量测序、高内涵筛选等技术的发展以及药物信息学数据快速积累,药物研发进入了数据驱动的新阶段。基于大数据的药物研发策略之一——药物重定位,能够通过大数据挖掘算法,发现已上市药物的新适应症、新作用机理和新副作用等,从而显著降低了研发成本和风险,缩短了研发周期。同时,药物多源(化学属性、临床属性和药理学属性等)大数据的积累也为多维度解析药物的作用机理、重定位己上市药物带来了新的机遇。本文针对药物的新适应症发现和新靶标辨识这两个核心问题,提出了基于药物信息学数据的计算分析框架。首先,从Library of Integrated Network-Based Cellular Signatures(LINCS)数据库中系统收集了海量的药物扰动和基因沉默的转录组数据,并经过严格的预处理步骤构建了完整的样本空间。然后,结合Softmax设计了二层感知机模型,并扩展到深度神经网络的构建,系统挖掘了LINCS数据库中己上市药物的新适应症,以及药物和靶标之间潜在的关联关系。接着,利用药物属性存在的多视图、多模态特性,本研究还建立了同/异构数据的融合体系,通过设计可变深度的数据立方体完成了跨细胞系药物-靶标数据的融合,并定义了基于对抗策略的特征抽取器,实现了多源异构药物数据间高级隐空间的求解。以上工作提高了药物新适应症发现和新靶标辨识的准确率与置信度,增强了模型的可扩展性。本文的研究内容主要包括以下四个方面:(1)基于二层感知机模型的药物治疗属性分类研究。由于一种药物通常具有多种治疗属性,本研究将药物的治疗属性分类建模为多标签分类问题。以LINCS计划中480种己上市药物扰动PC3细胞系的转录组学数据为基础,构建了二层感知机模型,并以Softmax作为神经元的非线性激活函数,从而完成了低维表征的自我学习,进而实现了对于药物ATC治疗属性的多标签分类,且在实时性上得到了明显提高。(2)基于深度神经网络的药物-靶标关联关系分类研究。本研究通过LINCS计划中480种己上市药物扰动及4363个靶标沉默于PC3细胞系上的转录组学数据,以DrugBank数据库中收录的药物-靶标关联关系为训练金标集,构建了以药物和靶标为双数据通道的深度神经网络,并重构了样本空间的分布以及目标函数的惩罚权重,不仅提高了深度神经网络分类性能,还学习到了更加精准的决策边界,从而实现了药物-靶标之间关联关系的分类,且预测出了更具置信度的新关联关系。(3)基于变通道卷积神经网络的药物-靶标关联关系分类研究。为了有效融合不同视图的数据(即不同细胞系下的药物和靶标的转录组数据),本文对齐不同细胞系下的药物-靶标对,设计了一种可变深度的数据立方体,并在此基础上构建了变通道卷积神经网络,对同构多视图数据间的相关性建模,从而实现7个细胞系数据的融合,促进药物-靶标关联关系的分类性能。(4)基于对抗策略和多任务学习的药物治疗属性分类研究。为了有效融合药物多领域的特征数据库及标签数据库,本文利用对抗策略,将不同领域、不同特征模板的异构数据映射到相同的特征空间以抽取领域特异性表征。并通过适合融合药物多领域特异特征的双向长短期记忆网络,根据药物治疗属性分类建立多任务学习框架,实现对具有高重定位潜力的己上市药物和海量小分子候选药的新适应症分类。上述的四种模型架构由浅至深,数据由单一来源至多种来源,稳步提升了药物重定位的分类精度,并逐一为药物分类研究所面临的问题提供了有效的解决方案。此外,本文所提出的分类模型具有良好的普适性,且能满足业界的实时性需求,为药物研究的发展提供了重要的技术支撑。