基于神经网络的多属性药物分类方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yanhsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高通量测序、高内涵筛选等技术的发展以及药物信息学数据快速积累,药物研发进入了数据驱动的新阶段。基于大数据的药物研发策略之一——药物重定位,能够通过大数据挖掘算法,发现已上市药物的新适应症、新作用机理和新副作用等,从而显著降低了研发成本和风险,缩短了研发周期。同时,药物多源(化学属性、临床属性和药理学属性等)大数据的积累也为多维度解析药物的作用机理、重定位己上市药物带来了新的机遇。本文针对药物的新适应症发现和新靶标辨识这两个核心问题,提出了基于药物信息学数据的计算分析框架。首先,从Library of Integrated Network-Based Cellular Signatures(LINCS)数据库中系统收集了海量的药物扰动和基因沉默的转录组数据,并经过严格的预处理步骤构建了完整的样本空间。然后,结合Softmax设计了二层感知机模型,并扩展到深度神经网络的构建,系统挖掘了LINCS数据库中己上市药物的新适应症,以及药物和靶标之间潜在的关联关系。接着,利用药物属性存在的多视图、多模态特性,本研究还建立了同/异构数据的融合体系,通过设计可变深度的数据立方体完成了跨细胞系药物-靶标数据的融合,并定义了基于对抗策略的特征抽取器,实现了多源异构药物数据间高级隐空间的求解。以上工作提高了药物新适应症发现和新靶标辨识的准确率与置信度,增强了模型的可扩展性。本文的研究内容主要包括以下四个方面:(1)基于二层感知机模型的药物治疗属性分类研究。由于一种药物通常具有多种治疗属性,本研究将药物的治疗属性分类建模为多标签分类问题。以LINCS计划中480种己上市药物扰动PC3细胞系的转录组学数据为基础,构建了二层感知机模型,并以Softmax作为神经元的非线性激活函数,从而完成了低维表征的自我学习,进而实现了对于药物ATC治疗属性的多标签分类,且在实时性上得到了明显提高。(2)基于深度神经网络的药物-靶标关联关系分类研究。本研究通过LINCS计划中480种己上市药物扰动及4363个靶标沉默于PC3细胞系上的转录组学数据,以DrugBank数据库中收录的药物-靶标关联关系为训练金标集,构建了以药物和靶标为双数据通道的深度神经网络,并重构了样本空间的分布以及目标函数的惩罚权重,不仅提高了深度神经网络分类性能,还学习到了更加精准的决策边界,从而实现了药物-靶标之间关联关系的分类,且预测出了更具置信度的新关联关系。(3)基于变通道卷积神经网络的药物-靶标关联关系分类研究。为了有效融合不同视图的数据(即不同细胞系下的药物和靶标的转录组数据),本文对齐不同细胞系下的药物-靶标对,设计了一种可变深度的数据立方体,并在此基础上构建了变通道卷积神经网络,对同构多视图数据间的相关性建模,从而实现7个细胞系数据的融合,促进药物-靶标关联关系的分类性能。(4)基于对抗策略和多任务学习的药物治疗属性分类研究。为了有效融合药物多领域的特征数据库及标签数据库,本文利用对抗策略,将不同领域、不同特征模板的异构数据映射到相同的特征空间以抽取领域特异性表征。并通过适合融合药物多领域特异特征的双向长短期记忆网络,根据药物治疗属性分类建立多任务学习框架,实现对具有高重定位潜力的己上市药物和海量小分子候选药的新适应症分类。上述的四种模型架构由浅至深,数据由单一来源至多种来源,稳步提升了药物重定位的分类精度,并逐一为药物分类研究所面临的问题提供了有效的解决方案。此外,本文所提出的分类模型具有良好的普适性,且能满足业界的实时性需求,为药物研究的发展提供了重要的技术支撑。
其他文献
淇澳,不只是一个位于珠江三角洲西江入海口的海岛,还是伶仃洋海域与大陆产生联系的历史节点。在历史与现实的交互作用下,淇澳岛的海岛社会发展随着空间生产的不断延伸而呈现
学位
传统经济模型对数据同频率的要求及基础数据频率的不一致性,常影响分析结果的准确性和有效性。混频数据模型能够充分利用不同频率数据的信息,很好的解决了这一问题。通货膨胀是宏观经济重要指标之一,为了能有效提高CPI的预测精度,本文以构建新的CPI混频预测模型为目标,提出了新的C-MIDAS-RF组合混频预测模型,对标准化后的CPI变量利用自适应分解方法进行多尺度分析,选取了影响CPI的八个高频解释变量建立
学位
重大节假日小型客车高速免费政策(以下简称“免通行费政策”)既具有惠民的社会意义,更具有拉动内需、促进旅游业等相关产业发展的经济意义,其积极效应是毋庸置疑的,有继续实施的必要。但对在政策实施中出现的一些问题仍亟需加以关注解决。2012年高速免费政策出台后,一些学者从政策制定、依法行政等不同角度对这一免费政策进行了研究,但不难发现,目前的研究是存在一定局限的:其一,以往研究多是从宏观上研究免费政策如何
学位
金融高频数据通常以一定的时间间隔为划分,例如时、分、秒,甚至更小的时间单位,理论上更接近于连续时间模型,因此相比于低频数据,更接近于金融资产价格的实际模型.而随着科技
学位
近年来,我国家电市场中企业间的竞争逐渐加剧。在激烈的市场竞争中,降低成本和提高质量成为企业制胜的法宝。财务共享中心的建立,一方面使得企业的管理更加高效,提高了企业的生产质量和效率,另一方面,也极大地提高了企业资金的使用效率,降低了资金成本。因此,家电行业企业近年来纷纷开始建立基于信息化技术的财务共享体系,实现资源整合、降低生产经营成本、提高营运能力。本文以我国家电行业龙头企业M公司作为研究对象,基
学位
基于对马克思主义的整体性理解和把握,马克思主义理想信念的概念就是蕴含在马克思主义一系列理论思想中,其关于理想和信念论述的主要立场、观点和方法的总称。理论主题包括共
20世纪60年代,加拿大媒介理论家马歇尔·麦克卢汉提出其媒介理论的著名命题——“媒介即讯息”。该命题强调了长期以来被研究者忽视的“媒介”的重要性,并以其独特的神喻式表
研发活动是企业维持核心竞争力并提升价值的重要力量,但由于研发过程充满着不确定性,研发价值难以估计,易使发行企业与外部投资者之间产生信息不对称,进而导致IPO抑价。同时,