论文部分内容阅读
有机化合物的基础性质在化学工程所涉及的产品设计、安全评估、溶剂选择等领域发挥着至关重要的作用。作为工业可持续发展的基本目标,环境效益和过程安全依赖于环境和危险等特性的评估,也推动化工过程向环境友好和安全方向发展。但是,环境与危险性质数据库资源有限、实验周期长且具有危险性等诸多困难不利于实验的广泛开展和数据库的更新。随着计算机和人工智能技术的发展,研究者开发了大量的数学模型作为实验的替代方案,实现了性质快速准确的估算。
传统的基团贡献法在性质预测领域具有举足轻重的地位,但其分子结构划分方法多样性等特点不利于模型构建。为此,本论文提出了一种具有良好可解释性和异构体识别能力的新方法从分子结构中提取特征,且各分子结构仅有一种分子特征组合方案,可以避免预测值的多样性。将分子特征提取策略与使用五折交叉验证优化的前馈神经网络耦合,基于训练数据构建性质预测模型,并使用测试数据评估模型外推能力。基于纯有机化合物的水中亨利常数数据集构建了全新的预测模型,呈现了良好的预测性能与外推能力,且通过模型对比发现在特征矢量和数据划分中分别引入三维分子描述符和聚类算法在增强异构体识别能力和模型合理性的同时,提高了模型的预测性能。与文献报道的模型相比,本论文所建立的预测模型使用了更少的分子特征,且具有更好精确度和通用性,均方根误差为0.2981,平均绝对误差为0.1544,决定系数为0.9856,修正决定系数为0.9853。
此外,本论文还搭建了集成学习框架用于耦合不同的机器学习算法构建的基础预测模型,以此开发新的集成预测模型,并探究了基于不同机器学习算法的集成学习对预测模型的影响。使用五折交叉验证对集成学习框架进行了优化,结合所开发的分子特征提取策略,基于训练数据构建预测模型,并以测试数据评估模型的外推能力。基于闪点数据集构建了全新的预测模型,发现集成预测模型具有更好的预测性能。基础模型与集成模型的对比表明,通过提高参与集成学习基础预测模型的预测精确度和算法多样性可以增强集成模型的预测性能。
本论文所提出的分子特征提取策略和集成学习框架在性质预测模型的构建中均具有可行性,所构建的全新性质预测模型均呈现出较好的预测性能与外推能力,实现了高性能预测模型的高效开发,可为包括产品设计、安全评估、溶剂选择在内化工领域的研究提供准确可靠的性质预测工具。
传统的基团贡献法在性质预测领域具有举足轻重的地位,但其分子结构划分方法多样性等特点不利于模型构建。为此,本论文提出了一种具有良好可解释性和异构体识别能力的新方法从分子结构中提取特征,且各分子结构仅有一种分子特征组合方案,可以避免预测值的多样性。将分子特征提取策略与使用五折交叉验证优化的前馈神经网络耦合,基于训练数据构建性质预测模型,并使用测试数据评估模型外推能力。基于纯有机化合物的水中亨利常数数据集构建了全新的预测模型,呈现了良好的预测性能与外推能力,且通过模型对比发现在特征矢量和数据划分中分别引入三维分子描述符和聚类算法在增强异构体识别能力和模型合理性的同时,提高了模型的预测性能。与文献报道的模型相比,本论文所建立的预测模型使用了更少的分子特征,且具有更好精确度和通用性,均方根误差为0.2981,平均绝对误差为0.1544,决定系数为0.9856,修正决定系数为0.9853。
此外,本论文还搭建了集成学习框架用于耦合不同的机器学习算法构建的基础预测模型,以此开发新的集成预测模型,并探究了基于不同机器学习算法的集成学习对预测模型的影响。使用五折交叉验证对集成学习框架进行了优化,结合所开发的分子特征提取策略,基于训练数据构建预测模型,并以测试数据评估模型的外推能力。基于闪点数据集构建了全新的预测模型,发现集成预测模型具有更好的预测性能。基础模型与集成模型的对比表明,通过提高参与集成学习基础预测模型的预测精确度和算法多样性可以增强集成模型的预测性能。
本论文所提出的分子特征提取策略和集成学习框架在性质预测模型的构建中均具有可行性,所构建的全新性质预测模型均呈现出较好的预测性能与外推能力,实现了高性能预测模型的高效开发,可为包括产品设计、安全评估、溶剂选择在内化工领域的研究提供准确可靠的性质预测工具。