基于聚类分析的药物-靶标互作关系预测方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bluebirdmengmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药物发现与设计是一个耗资大、周期长、风险高、成功率与效率低的系统工程。据统计,一个新药从初始概念到投放市场平均耗时10~15年,平均花费是8~15亿美元,尽管如此,每年也仅有约10%的药物获得美国食品和药物管理局认证。药物-靶标互作关系(drug-target interaction,DTI)识别是药物发现与设计中一个关键步骤,有助于理解复杂的生物作用,重要的生物过程,加速新药发现,降低研发成本,提升人类医疗水平。随着药物、靶标、药物-靶标互作关系数据的积累及机器学习、数据挖掘、网络药理学等理论与方法的研究深入,采用计算方法预测药物-靶标互作关系成为可能。因此,本文针对药物-靶标互作关系查询验证,药物、靶标数据簇个数确定及聚类分析,药物-靶标互作关系预测等问题深入研究,仅利用单源数据,提出基于药物、靶标数据聚类分析的超类与特征投影模糊分类融合方法预测药物-靶标互作关系。具体内容包括以下四个部分:(1)针对药物-靶标互作关系查询验证问题,提出一种高效查询验证方法(DTcheck)。目前,主要依赖人工手动在各个数据库中逐对查询验证药物-靶标互作关系,且待查询数量巨大,每个研究者需要重复相同的工作,导致效率低下、易遗漏、易出错。本文所提出方法充分利用爬虫抓取数据的特性,代替人工直接在数据库中查询验证药物-靶标互作关系,提升查询验证效率,降低出错几率。实现了酶、离子通道、G-蛋白偶联受体、核受体4个标准数据集中所有未知药物-靶标互作关系在KEGG,Drug Bank,Ch EMBL,Super Target数据库中的查询验证,并搜集已被验证药物-靶标互作关系,扩增了这4个准数据集中的药物-靶标互作关系数据。(2)针对在没有药物、靶标数据有关类别标签先验信息情况下确定其合适簇个数问题,提出基于加权局部密度序列及近邻赋值的密度峰值方法(DPCSA)。固定值K近邻及剩余点对局部密度差异化贡献的计算方法克服了密度峰值算法中局部密度预定义参数缺陷,保证决策图中非中心点与中心点显著分离以正确决定簇个数;在原始标签赋值过程中增加最近邻赋值,降低了密度峰值算法赋值过程中的错误标签传播。利用改进密度峰值算法的决策图,有效的决定了酶、离子通道、G-蛋白偶联受体、核受体数据集药物、靶标数据合适的簇个数。(3)针对药物、靶标数据的聚类分析问题,提出一种改进的K-medoids算法(INCK)。候选中心点子集避免不合适的点成为待选中心点;中心点逐步递增优化,确保尽可能跳出局部最优聚类结果,且继承K-medoids算法鲁棒性。在基于DPCSA决策图的簇个数结论基础上,相比于其它聚类方法,改进的K-medoids算法在酶、离子通道、G-蛋白偶联受体、核受体的药物、靶标数据上显著改善孤立簇现象,使聚类结果更加合理可信。(4)针对药物-靶标互作关系预测这一难点问题,提出基于聚类分析辅助的超类与特征投影模糊分类融合的方法(FPSC-DTI)预测药物-靶标互作关系。由于已知的药物-靶标互作关系数据(正例)少,且没有严格意义的负例,只能将未知药物-靶标互作关系当作负例,致使数据正负例严重不平衡。由超靶与超药融合的“乐观”式超类预测方法降低了稀疏药物-靶标互作关系数据影响,该方法基于聚类分析结果增加药物-靶标互作关系,降低稀疏性;保留负例约束的“悲观”式特征投影模糊分类方法折中“乐观”式超类方法及将未知药物-靶标互作关系当作负例而产生的负面效应,该方法基于矩阵分解思想发展而来,克服药物、靶标在隐特征分解中的维数约束,保留全部特征信息;模糊隶属度函数的引入确保了超类与特征投影模糊分类在相同值域区间融合,形成融合的药物-靶标互作关系预测方法。在酶、离子通道、G-蛋白偶联受体、核受体数据集上实验结果表明,与其它方法相比,提出的融合方法提升了药物-靶标互作关系预测性能,数据集的差异不会对融合方法产生影响,鲁棒性好,但是其它方法会因为数据集的差异产生显著差异化的预测结果。此外,基于INCK聚类分析的结果及药物-靶标互作关系数据分析结果表明,超类假设与聚类分析结果相吻合,进一步增强融合方法预测药物-靶标互作关系结果的可信度。综上所述,本文围绕药物-靶标互作关系预测问题,在单源数据的基础上,构建了基于药物、靶标数据聚类分析的超类与特征投影模糊分类的融合方法。与其它方法相比,标准数据集上的实验结果表明,融合方法提升了药物-靶标互作关系预测结果的准确性。同时,本文利用开发的高效查询验证方法扩增了药物-靶标互作关系数据,有助于更合理评价其它DTI预测方法。
其他文献
在自然界中,世界的变化总是遵从着物理世界的基本数理原理,并且有迹可循。那么信息世界的变化对于人类来说是否有迹可循?如果有,如何高效地追踪其变化的产生和流动?人类是否
研究了Banach空间一类脉冲积分微分方程最大解,最大解的存在性及解的存在唯一性,所得结果推广和改进了文(1)的工作。
文章阐释了精准扶贫、文化扶贫与文化精准扶贫的概念,并在对历年论文进行研究的基础上,分析了公共图书馆实施文化精准扶贫的路径,旨在为公共图书馆助力文化精准扶贫提供一些
本文介绍了JY型节能油泵的性能,特点及其水力设计和结构设计方面的特殊性.分析了该泵的密封技术及其在输送不同介质时性能的换算.实际运行表明,JY型油泵具有高效节能,可靠性高.使用
中国体坛飞人刘翔去美国休斯敦,请名医克兰顿为其进行手术,清除了跟腱中的钙化点后,恢复情况良好。营养师特意让家人给他炖三七肉鸽汤辅助食疗,以促进伤口愈合。
期刊
本文导出了λη+(1-λ)P/P_a 最大时卡诺热机的效率和功率,给出了λη+(1-λ)P/P 最大时η和 P 的关系,并进行了讨论。由此阐述了应用多参数组合的目标函数讨论优化问题是有
目前优化设计方法多数是建立在传统制造工艺基础上,严重制约了产品结构设计能力发挥,未能利用增材制造技术所提供的新型设计空间,使得零部件的结构性能无法得到充分释放。本
近年来,我国提出“一带一路”重大倡议,与周边国家进行了经济与文化等多方面的合作与交流。在此背景下,公共图书馆作为我国公共文化事业的重要组成部分,需要也有必要参与“一
阐述了多传感器数据融合中的概率数据关联算法,并采用MATLAB高级语言进行模拟,最后得到了满意的目标跟踪曲线和跟踪误差。
2017年11月16日-17日国家标准《敲击呆扳手和敲击梅花扳手》、行业标准《孔锯》、《F型木工夹》征求意见稿研讨会在上海市工具工业研究所召开。敲击呆扳手和敲击梅花扳手主要