论文部分内容阅读
新药研发是一个漫长的过程,通过采用新技术来提高从临床前阶段到临床阶段的速率和成功率是制药行业关注的一个重要问题。组学技术在新药研发过程(如靶点发现、作用机制或毒性预测)中发挥着重要作用。蛋白质组学是研究组织或体液中蛋白质的整体分布,因其综合性而被广泛应用于新型药物靶标开发以及药物临床试验过程。然而,在药物靶标发现中仍面临着诸多严重问题,包括(1)蛋白质组学的定量分析是发现生物标志物和药物靶标过程中必不可少的一部分。由于生物样本的复杂性和实验技术误差等原因,使蛋白质组学的定量准确度较差,因此如何提高蛋白质组学的定量准确度成为药物靶标发现的重要挑战。(2)研究人员在选择和评估特征选择方法上通常缺乏一致性和相对的严格性。特征选择方法的鲁棒性较低,将大大削弱了生物标志物的可靠性,进一步阻碍其在药物靶标发现上的应用。(3)基于质谱技术的组学研究,在蛋白质或代谢物定量上,存在噪音过大、对低丰度物质灵敏度过低等问题,需要能有效去除相应偏差的信息学方法。但是现有方法无法有效消除由此造成的假阳性识别,如何降低假阳性过高问题是对蛋白质组学等组学研究提出的巨大挑战。(4)早期药物发现往往片面强调了药物对药靶的活性,而忽视了对药靶的严格确证和可药靶性特征的全面分析,从而降低了药靶和新药开发的成功率。这些问题对药物靶标发现的后续研发链条造成了严重影响,也是新药研发中亟待解决的科学问题。
针对上述药物靶标发现中所面临的四个关键科学问题,本文主要从以下四个方面开展了创新性研究工作:(1)为了提高蛋白质组学的定量准确度,首先通过基于SWATH-MS(所有理论片段的顺序窗口采集)技术的药物蛋白质组学数据,发现了蛋白质组学定量的各个数据分析链的性能之间的巨大差异。进一步提出了一种新策略可以同时提高无标定量蛋白质组学的精密度、准确性和鲁棒性,并构建了具有多角度评估标准的软件包EVALFQ(https://github.com/idrblab/EVALFQ)。该软件包可以自动计算所有可能的蛋白组学数据分析链,从而帮助研究人员在综合性能排序的基础上选择出性能最优的分析链。(2)明确指出了筛选合适的特征选择方法应具有如下特征:良好的一致性、高重现性以及最优的预测性能,并从这些角度出发对常用的特征选择方法进行了全面的性能分析。与其他特征选择方法相比,SVM-RFE在受到训练数据的扰动的情况下,鲁棒性较好,而没有受到生物学背景用于数据采集的质谱类型的影响。(3)多组学结果的整合分析是控制药靶发现中假阳性过高的一种有效策略。然而在有效整合蛋白组学和代谢组学结果时,异质性的数据集将会导致更严重的假阳性问题,因此将上述提高蛋白质组学准确度的策略引入到代谢组学数据分析中以解决假阳性过高问题,为多组学结果整合提供坚实基础。系统性整合了代谢组学的数据预处理流程,开发了不仅可以发现性能良好的预处理流程,还可以实现对多类和时间序列问题代谢组学数据的处理以及综合多角度评估标准的软件包NOREVA(https://github.com/idrblab/NOREVA)。(4)严格确证药物靶标,全面分析成功批准的靶点可药靶性特征和药物临床进程状态,进一步确证了识别快速获批人类药靶的简单规则,根据此规则正确识别了73.1%的快速获批人类药靶,且仅意外误判了18.9%的非快速获批人类药靶。
综上所述,本文从基于组学技术的药物靶标发现中所面临的亟待解决的挑战出发。本文主要提出一种新策略用于提高蛋白质组学定量准确度,并构建多角度评估标准的软件包。同时对多种特征选择方法进行全面的性能分析并发现鲁棒性较好的方法。为降低假阳性,系统性优化代谢组学数据分析流程,为有效整合多组学结果提供基础。本文为药物靶标发现在处理大规模组学数据、组学定量分析、特征选择方法以及多组学整合方面提供有力的支撑。同时本研究进一步确证了识别快速获批人类药靶的简单规则,为判断药物靶标优劣提供参考。总之,以上的研究工作将为药物靶标发现、预防医学以及个性化医疗等领域提供新的思路和借鉴作用。
针对上述药物靶标发现中所面临的四个关键科学问题,本文主要从以下四个方面开展了创新性研究工作:(1)为了提高蛋白质组学的定量准确度,首先通过基于SWATH-MS(所有理论片段的顺序窗口采集)技术的药物蛋白质组学数据,发现了蛋白质组学定量的各个数据分析链的性能之间的巨大差异。进一步提出了一种新策略可以同时提高无标定量蛋白质组学的精密度、准确性和鲁棒性,并构建了具有多角度评估标准的软件包EVALFQ(https://github.com/idrblab/EVALFQ)。该软件包可以自动计算所有可能的蛋白组学数据分析链,从而帮助研究人员在综合性能排序的基础上选择出性能最优的分析链。(2)明确指出了筛选合适的特征选择方法应具有如下特征:良好的一致性、高重现性以及最优的预测性能,并从这些角度出发对常用的特征选择方法进行了全面的性能分析。与其他特征选择方法相比,SVM-RFE在受到训练数据的扰动的情况下,鲁棒性较好,而没有受到生物学背景用于数据采集的质谱类型的影响。(3)多组学结果的整合分析是控制药靶发现中假阳性过高的一种有效策略。然而在有效整合蛋白组学和代谢组学结果时,异质性的数据集将会导致更严重的假阳性问题,因此将上述提高蛋白质组学准确度的策略引入到代谢组学数据分析中以解决假阳性过高问题,为多组学结果整合提供坚实基础。系统性整合了代谢组学的数据预处理流程,开发了不仅可以发现性能良好的预处理流程,还可以实现对多类和时间序列问题代谢组学数据的处理以及综合多角度评估标准的软件包NOREVA(https://github.com/idrblab/NOREVA)。(4)严格确证药物靶标,全面分析成功批准的靶点可药靶性特征和药物临床进程状态,进一步确证了识别快速获批人类药靶的简单规则,根据此规则正确识别了73.1%的快速获批人类药靶,且仅意外误判了18.9%的非快速获批人类药靶。
综上所述,本文从基于组学技术的药物靶标发现中所面临的亟待解决的挑战出发。本文主要提出一种新策略用于提高蛋白质组学定量准确度,并构建多角度评估标准的软件包。同时对多种特征选择方法进行全面的性能分析并发现鲁棒性较好的方法。为降低假阳性,系统性优化代谢组学数据分析流程,为有效整合多组学结果提供基础。本文为药物靶标发现在处理大规模组学数据、组学定量分析、特征选择方法以及多组学整合方面提供有力的支撑。同时本研究进一步确证了识别快速获批人类药靶的简单规则,为判断药物靶标优劣提供参考。总之,以上的研究工作将为药物靶标发现、预防医学以及个性化医疗等领域提供新的思路和借鉴作用。