论文部分内容阅读
机器学习算法尤其是神经网络,已经成为工程领域建模的有力工具。这些方法可以从更高维度拟合不同变量之间的高度非线性映射关系,尤其适用于工程中有观测数据,但是变量间映射关系过于复杂,导致传统物理模型或者经验模型无法有效解决的问题。神经网络在工程中的一个重要的应用领域是石油工程,尤其是可以应用于对勘探开发至关重要的测井。测井是一种用来描述并分析地下情况的物理测量手段,对于油气勘探和开发具有重要意义。地质学家和工程师可以基于测井数据建立精确的地质模型,并设计勘探开发策略。然而,测井曲线的采集往往是昂贵且耗时的,在实际测量中由于各种客观原因,经常出现测井数据缺失的问题,也可能出于成本考虑而放弃测量某些整条测井曲线。因此,测井曲线的补全与生成是一个具有学术和工程价值的研究。然而,由于地层情况复杂且存在各向异性,所以不同测井曲线之间的映射关系极为复杂,无论是传统的物理模型还是经验模型,都难以准确描述测井曲线之间的关系,无法对残缺测井曲线进行补全或者对未测量的测井曲线进行生成。在本论文中,我们针对测井曲线补全和生成的问题,提出了利用机器学习方法的高效解决方案。同时,我们发现机器学习算法直接应用于工程领域的过程中,普遍存在四个问题。针对这些问题,本论文将物理约束作为先验知识引入到模型中,并将历史拟合领域中的算法融合到神经网络中,提出了一类新型的集合神经网络和集合长短期记忆神经网络。利用新构建的模型,我们成功将领域知识融合到机器学习算法中,使得模型更符合物理机理,进一步提升了模型的预测准确度。具体而言,第一个问题是目前神经网络与工程问题的结合过于直接,多是单向的应用过程,缺少与具体领域知识的结合。实际上,将领域知识引入到神经网络中,相当于为模型提供了丰富且有价值的先验知识,有利于构建出更符合物理机理的模型,打破模型效果提升的瓶颈,进一步提升模型的预测准确度。简单直接地应用神经网络并不能保证模型的预测效果。神经网络与应用场景的结合需要充分考虑领域知识,不能简单的单向应用,而应该将领域知识与神经网络有机融合、双向耦合。一方面利用神经网络描述复杂映射关系的能力,另一方面利用问题本身的特点反哺算法与模型,才能使得模型与问题更加全面有效地结合,并改善模型性能。第二个问题是缺少对预测结果不确定性的量化分析。在工程应用中,由于判断结果往往会产生较大的经济甚至社会影响,所以对于预测结果的不确定性分析是极其重要的。任何模型预测结果中的不确定性是无法避免的,包括由于噪声数据引起的数据不确定性,以及来自于模型参数和模型结构的模型不确定性。因此,神经网络的预测结果也不可能永远是准确的,如果模型能够对预测结果提供不确定性分析,则可以在预测结果不确定性高的时候将问题交由人工判断处理。通过这种手段,能够有效降低由于预测有误所带来的损失。因此,对于拥有较大经济价值或关乎生命的应用场景而言,模型输出结果的不确定性信息极其重要。第三个问题是数据的易得性和数据量。高质量数据对于训练机器学习模型而言极其重要。然而对于大多数工程问题的数据而言,往往存在两个特点:有些情况是数据量巨大,但是数据非结构化且缺失值和异常值比例较高,真正可用数据较少;另一些情况下数据质量较高,但是数据的采集往往是耗时且昂贵的。数据易得性和数据量的问题极大地制约了机器学习在工程中的实际应用。最后一个问题是缺少无梯度算法。目前神经网络的激活函数和损失函数必须易于求导,否则无法通过反向传播算法进行迭代优化。虽然机器学习领域中提供了许多易于求导的损失函数,但是在工程应用中,许多直接有效的损失函数往往是结合领域知识且难以求导的。此外,这一特点也约束了神经元的结构,限制了对预测能力更强的新型网络的探索。为了解决上述问题,本研究主要完成了如下工作:1.将机器学习算法应用于能源工程中,解决测井曲线补全与生成的问题。考虑到储层具有地质连续性,选择善于处理序列数据且可以学习长期相关性的长短期记忆神经网络(LSTM)作为预测模型的基础。进一步基于LSTM构建了串级长短期记忆神经网络(Cascaded LSTM),并用于生成人工测井曲线。2.将物理约束和领域知识引入机器学习算法,通过在LSTM中增加机理模拟网络结构和自适应分层归一化两种约束,构造了物理约束长短期记忆神经网络(PCLSTM)。利用PC-LSTM基于常规测井曲线预测地质力学测井曲线,并成功构建地质力学模型。这一方法有利于根据易于获得的常规测井曲线构建精确地质模型,对实际勘探开发具有重要意义。3.将能源工程领域中的集合随机最大似然法(En RML)用于全连接神经网络(FCNN)和LSTM,通过将传统网络(FCNN和LSTM)的前馈过程与En RML结合,构造出基于协方差矩阵进行迭代优化的集合神经网络(ENN)和集合长短期记忆神经网络(En LSTM)。该类网络基于贝叶斯定理构建,可以提供不确定性分析,可以针对小数据量训练,且不依赖于导数计算,更适合于工程实际应用。在En LSTM中,通过引入模型参数扰动方法,有效解决了过度收敛问题,同时引入了标准化观测值的保比例扰动方法。最后,将En LSTM应用于测井曲线生成问题,并取得了较好的效果。