论文部分内容阅读
化合物的热力学数据是化工模拟、生产和工艺设计中必不可少的基础数据,也是研究化合物性质和用途的重要参数。这些数据获取最直接的方法是由实验测定。但由于化合物(特别是有机化合物)数目极其繁多,或受实验条件限制,要获得每个化合物的热力学数据非常困难。且对尚未合成的化合物,不能通过实验方法测定其热力学数据。因此许多化合物的热力学数据缺失或末见报道。因此寻找对化合物热力学数据进行准确计算的方法一直是化学和化工领域研究的重点课题之一。定量构效关系(Quantitative Structure-Activity/Property Relationship,QSAR/QSPR)通过提取物质的理化性质或分子结构参数等,通过数学或人工智能算法建立化合物性质与参数之间的定量关系来计算化合物的性质数据,可为化工模拟、生产和工艺设计等提供所需热力学数据的计算方法。在定量构效关系研究中最关键的问题是如何尽可能全面的提取分子的结构信息。结合本课题组提出的极化效应指数(PEI),本文构建了新的结构参数NCeff,ΔPEI,ΔNCeff,GC等。其用于六类重要的脂肪族含氧有机化合物醇、醚、醛、酮、酸和酯热力学数据QSPR研究中并取得了较好的成果。本文主要研究工作涉及以下几方面:(1)构建了新的结构参数NCeff,ΔPEI,ΔNCeff,GC等,用于描述有机化合物碳链异构和官能团位置等分子结构信息。(2)采用最佳子集回归方法分类建立了六类脂肪族含氧有机化合物单系列沸点的多元线性回归方程。对六类有机化合物的沸点预测值平均绝对偏差在5K以下,相对偏差在1.03%以下;对六类有机化合物沸点建立了统一的多元线性回归方程,预测结果平均绝对偏差为4.72K,相对偏差为1.09%。支持向量回归方法建立的六类有机化合物沸点统一QSPR模型预测结果的平均绝对偏差为4.67K,相对偏差为1.08%。(3)分类建立了六类脂肪族含氧有机化合物单系列导热率与结构参数、温度的多元线性回归方程。其预测结果平均绝对偏差在0.0080W/m·K以下,平均相对偏差均在5%以下。采用最佳子集回归方法建立了六类有机化合物导热率统一的线性回归方程,预测结果平均绝对偏差为0.00699W/(m.K),相对偏差为4.98%。支持向量回归方法建立的六类有机化合物导热率统一的计算模型预测结果平均绝对偏差为0.0020W/(m.K),平均相对偏差1.41%,支持向量回归所建的QSPR模型远优于多元线性回归模型。(4)用最佳子集回归方法分别建立了六类脂肪族含氧有机化合物单系列液态生成焓(ΔfH°(liquid))和气态生成焓(ΔfH°(gas))的多元线性回归方程。六类化合物多元线性回归方程对计算的生成焓数据平均绝对偏差在4.0kJ/mol以下,平均相对偏差均在2%以下。用最佳子集回归和支持向量回归方法建立了六类脂肪族含氧有机化合物(ΔfH°(liquid))和气态生成焓(ΔfH°(gas))统一定量构效关系模型。最佳子集回归方法得到的多元线性回归方程计算结果平均绝对偏差均小于4.9kJ/mol,平均相对偏差均小于1.30%,且只含有3个结构参数,计算简便。支持向量机回归模型的预测平均绝对偏差小于4.0kJ/mol,平均相对偏差小于1.0%。(5)编写了可视化支持向量机软件i-SVM。该软件集成了数据转换、数据归一化、训练建模和预测等功能。能够使用广度探索,遗传和粒子群等算法进行参数优化、变量筛选等。可在Windows系统中完成从MS excel表格数据直接转换为输入数据,训练建模到预测的整个过程。同时可以建立批外理文件一次提交多个任务,极大地提高了工作效率。该软件用于本文热力学数据的定量构效关系建模,所得到的QSPR模型质量优于最佳子集回归方法得到的多元线性回归模型。本文所构建的分子结构参数计算简单,所建立的六类含氧有机化合物的沸点,导热率和生成焓的QSPR模型计算值与实验值吻合,为化工热力学数据的计算提供了新的方法。