论文部分内容阅读
数据挖掘(DataMining)就是从大量的、不完全的、有噪声的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。经过这数十年的发展,数据挖掘技术已经成为处理化学化工数据的常规手段。
本文将支持向量机(supportvectormachine,SVM),一种特别适合用有限已知样本训练建模,进而预报未知样本属性的数据挖掘新算法应用于若干化合物体系的构效关系研究。由于支持向量机算法的数学理论非常严格,同时考虑到拟合精度和对过拟合的抑制,故能基于小样本集作较可靠的计算机预报。其对所选体系的数据处理均得到了较好的预报结果,充分展现了SVM算法的优点和广阔的应用前景。主要研究工作分三部分:
第一部分支持向量分类(SVC)算法用于药物构效关系研究。本工作由两个章节构成。
(1)3-甲基芬太尼衍生物(3-MF)的镇痛活性研究。将支持向量分类(supportvectorclassification,SVC)算法用于3-MF及其衍生物结构与镇痛活性关系的研究,用SVM预报结果来筛选结构参数。所建SVC模型分类结果为95.12%,对41个3-MF的活性类别留一法预报正确率为92.68%,明显高于主成分分析法(PCA)(85.37%),Fisher法(87.80%)和KNN法(87.80%)。
(2)三唑类衍生物的抗真菌活性研究。用HyperchemTM软件计算了23个该类药物分子的量子化学参数,基于SVM的特征筛选方法找出了影响活性目标变量的主要特征参数,用SVC算法建立了活性与参数间的定性模型并用留一法进行了类别预报。结果为:训练集的分类正确率为91.3%,留一法预报正确率为91.3%,优于传统的PCA方法(83%)和KNN方法(74%)。在此基础上,进行了三唑类药物分子的初步设计工作。
第二部分支持向量回归(supportvectormachine,SVR)算法用于二取代[(吖啶-4-酰胺基)丙基]甲胺类衍生物的活性研究。在通过HyperchemTM软件计算了40个该类药物分子的量子化学参数以及特征参数筛选后,用SVR算法对化合物的活性进行了定量建模和留一法预报。SVR建模的相对误差为4.47%,优于线性回归算法(5.58%);留一法预报相对误差为6.819%,优于人工神经网络(ANN)算法(8.099%)。
第三部分支持向量回归(SVR)算法用于偶氮染料分子的结构性质研究。将SVM特征筛选方法对已知偶氮染料分子分子描述符进行了压缩提取,讨论了有关结果。用特征筛选后的分子描述符构建了染料分子亲合力的SVR模型,并用留一法考察了SVR模型的预报能力与可靠性,同时还用多种传统方法对该体系进行了研究。结果是:ANN拟合最好,其平均相对误差MRE仅0.28%,优于SVR5.09%,MLR6.16%,PLS6.41%;SVR的预报正确率最高,其MRE为6.60%,而在训练中拟合最好的ANN其预报的MRE为10.89%,低于MLR9.30%和PLS9.52%。结果表明:与人工神经网络(ANN)法、多元线性回归(MLR)法和偏最小二乘(PLS)法相比,SVR算法可以得到预测精度更高,稳定性更好的染料分子结构与性质关系的数学模型。