论文部分内容阅读
为加快中医药现代化、国际化的发展,实现多学科、跨行业的交流,需要拓展现代科技与传统中医药相融相通的深度与广度。因此,要加强系统生物学、大数据、人工智能等多学科前沿技术与中医药的深度交叉融合。“中药现代化”战略已经实施了25年,我国的中药产业也进入了快速发展的新时代,中药的药效物质、作用机制、质量控制、药代动力学及安全性等基础研究都得到了全面的开展。在众多研究中,物质基础一直是中药首先要解决的基本问题,由于药用植物化学成分复杂多变,质谱(Mass Spectrometer)分析成为最高效的研究手段。目前市场上的质谱仪虽然具有结构鉴定能力强大、灵敏度高、分析范围广、分析速度快、与色谱仪兼容性高等特点,但由于厂家众多,型号多样,实验室数据库通用性一直是困扰科研工作者的难题。近年来,随着人工智能浪潮的推进,利用深度神经网络实现对大量数据的学习和分析成为了机器学习领域的关键性技术。深度神经网络技术,以人工神经元为基础,构建出适用于不同任务的深度学习模型,可以从大量数据样本中学习其深层次的内在规律和表示形式,使其在某些任务中达到甚至超过人类的水平。建立基于深度神经网络技术的机器学习算法,可以为数据的自动化识别、数据库通用性匹配提供新的解决方案。受此启发,本文利用深层神经网络模型学习黄酮类和二苯甲酮类天然产物标准品的质谱数据的内在差别,建立了一种能够对黄酮类和二苯甲酮类天然产物进行区分的神经网络模型方法。黄酮类和二苯甲酮类化合物具有结构相似,分子量接近,质谱裂解途径相似等特点,采用高分辨数据计算及数据库检索时,往往出现错误率较高的情况。本文以黄酮类和二苯甲酮类化合物为研究对象,探索深度神经网络技术在化合物分类上面的自动识别方法。采用超高液相色谱-四级杆-静电场轨道阱质谱联用技术(UHPLC-Q-Orbitrap MS)对随机挑选的50个标准品进行分析,包括25个黄酮类化合物,25个二苯甲酮类化合物,结合响应面实验设计对液相色谱条件和质谱条件进行优化。最后得到的最优条件为:使用Waters ACQUITY UPLC HSS T3(2.1×100 mm,1.8μm)色谱柱分离,经乙腈-0.1%甲酸水梯度洗脱,流速0.2 m L·min-1,柱温30°C,毛细管温度200°C,辅助器加热温度400°C,正离子喷雾电压3.2 k V,负离子喷雾电压2.8k V。得到最优条件后,对133个标准品进行液相质谱分析,包括84个黄酮类化合物,49个二苯甲酮类化合物。将133个标准品的液相质谱数据通过Xcalibur 4.0软件分别提取44维样本信息,包括:正离子模式下的保留时间、母离子m/z和20个二级质谱碎片,负离子模式下的保留时间、1个母离子m/z和20个二级质谱碎片。正、负离子模式二级质谱碎片选择的标准为前20强。为了进行深度学习的建模分析,将各化合物在正负切换扫描模式下得到的保留时间、母离子、及二级质谱碎片拼接起来作为模型的输入特征。并且,采用了深度前馈神经网络对113个标准品的数据74个黄酮类化合物标准品,39个二苯甲酮类化合物标准品)进行训练和验证,让神经网络模型学习到区分两类化合物的能力。最后利用神经网络模型对未学习过的20个标准品数据(10个黄酮类化合物标准品,10个二苯甲酮类化合物标准品)进行分类性能的测试。为了给神经网络模型提供更好的输入特征,本文基于113个标准品数据,分别对32维(正、负离子模式下的母离子m/z和15个二级质谱碎片),42维(正、负离子模式下的母离子m/z和20个二级质谱碎片),44维(正、负离子模式下的保留时间、母离子m/z和20个二级质谱碎片)这三种情况进行了实验对比,得到了不同的输入特征维度的深度前馈神经网络模型。实验结果表明,42维的输入特征可以实现最高的分类准确率,在对20个标准品进行的测试中,可以实现80%的分类正确率。为了对深度学习神经网络模型进行进一步的验证,本文通过Compound Discoverer2.1软件对不同溶剂提取的两个采收时期的芒果叶样品进行了数据自动提取,共得到102个化合物的42维高分辨质谱数据,使用模型对其进行分类鉴定,共得到46个黄酮类化合物,26个二苯甲酮类化合物。通过mz Cloud数据库以及实验室自制标准品进行鉴定,确认出其中18个黄酮,12个二苯甲酮。其中,有10个黄酮类化合物是在芒果叶中首次被发现,而未鉴定出的28个黄酮和14个二苯甲酮可能为新化合物。上述结果提示本方法具有灵敏度高、准确性好、自动化程度高的特点,适用于中药新化合物的快速发现研究。综上所述,本文运用响应面法对色谱条件和质谱条件进行优化,使用UHPLC-Q-O rbitrap MS仪器对133个标准品进行分析并采集数据,运用深度神经网络技术建立快速区分黄酮类化合物和二苯甲酮类化合物的方法,准确率达到80%,基本验证该技术的可行性。此外,模型的准确率可以随着标准品数量的增多而不断提高,提示深度学习技术适用于中药复杂样品的快速鉴定。最后,我们通过对芒果叶不同提取物中化合物进行鉴定,确定了该技术在分析鉴定上具有很大的实用价值,对药用植化分离也具有一定的指导作用。