基于机器学习的测井曲线补全与生成研究

来源 :北京大学 | 被引量 : 10次 | 上传用户:surtacohen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习算法尤其是神经网络,已经成为工程领域建模的有力工具。这些方法可以从更高维度拟合不同变量之间的高度非线性映射关系,尤其适用于工程中有观测数据,但是变量间映射关系过于复杂,导致传统物理模型或者经验模型无法有效解决的问题。神经网络在工程中的一个重要的应用领域是石油工程,尤其是可以应用于对勘探开发至关重要的测井。测井是一种用来描述并分析地下情况的物理测量手段,对于油气勘探和开发具有重要意义。地质学家和工程师可以基于测井数据建立精确的地质模型,并设计勘探开发策略。然而,测井曲线的采集往往是昂贵且耗时的,在实际测量中由于各种客观原因,经常出现测井数据缺失的问题,也可能出于成本考虑而放弃测量某些整条测井曲线。因此,测井曲线的补全与生成是一个具有学术和工程价值的研究。然而,由于地层情况复杂且存在各向异性,所以不同测井曲线之间的映射关系极为复杂,无论是传统的物理模型还是经验模型,都难以准确描述测井曲线之间的关系,无法对残缺测井曲线进行补全或者对未测量的测井曲线进行生成。在本论文中,我们针对测井曲线补全和生成的问题,提出了利用机器学习方法的高效解决方案。同时,我们发现机器学习算法直接应用于工程领域的过程中,普遍存在四个问题。针对这些问题,本论文将物理约束作为先验知识引入到模型中,并将历史拟合领域中的算法融合到神经网络中,提出了一类新型的集合神经网络和集合长短期记忆神经网络。利用新构建的模型,我们成功将领域知识融合到机器学习算法中,使得模型更符合物理机理,进一步提升了模型的预测准确度。具体而言,第一个问题是目前神经网络与工程问题的结合过于直接,多是单向的应用过程,缺少与具体领域知识的结合。实际上,将领域知识引入到神经网络中,相当于为模型提供了丰富且有价值的先验知识,有利于构建出更符合物理机理的模型,打破模型效果提升的瓶颈,进一步提升模型的预测准确度。简单直接地应用神经网络并不能保证模型的预测效果。神经网络与应用场景的结合需要充分考虑领域知识,不能简单的单向应用,而应该将领域知识与神经网络有机融合、双向耦合。一方面利用神经网络描述复杂映射关系的能力,另一方面利用问题本身的特点反哺算法与模型,才能使得模型与问题更加全面有效地结合,并改善模型性能。第二个问题是缺少对预测结果不确定性的量化分析。在工程应用中,由于判断结果往往会产生较大的经济甚至社会影响,所以对于预测结果的不确定性分析是极其重要的。任何模型预测结果中的不确定性是无法避免的,包括由于噪声数据引起的数据不确定性,以及来自于模型参数和模型结构的模型不确定性。因此,神经网络的预测结果也不可能永远是准确的,如果模型能够对预测结果提供不确定性分析,则可以在预测结果不确定性高的时候将问题交由人工判断处理。通过这种手段,能够有效降低由于预测有误所带来的损失。因此,对于拥有较大经济价值或关乎生命的应用场景而言,模型输出结果的不确定性信息极其重要。第三个问题是数据的易得性和数据量。高质量数据对于训练机器学习模型而言极其重要。然而对于大多数工程问题的数据而言,往往存在两个特点:有些情况是数据量巨大,但是数据非结构化且缺失值和异常值比例较高,真正可用数据较少;另一些情况下数据质量较高,但是数据的采集往往是耗时且昂贵的。数据易得性和数据量的问题极大地制约了机器学习在工程中的实际应用。最后一个问题是缺少无梯度算法。目前神经网络的激活函数和损失函数必须易于求导,否则无法通过反向传播算法进行迭代优化。虽然机器学习领域中提供了许多易于求导的损失函数,但是在工程应用中,许多直接有效的损失函数往往是结合领域知识且难以求导的。此外,这一特点也约束了神经元的结构,限制了对预测能力更强的新型网络的探索。为了解决上述问题,本研究主要完成了如下工作:1.将机器学习算法应用于能源工程中,解决测井曲线补全与生成的问题。考虑到储层具有地质连续性,选择善于处理序列数据且可以学习长期相关性的长短期记忆神经网络(LSTM)作为预测模型的基础。进一步基于LSTM构建了串级长短期记忆神经网络(Cascaded LSTM),并用于生成人工测井曲线。2.将物理约束和领域知识引入机器学习算法,通过在LSTM中增加机理模拟网络结构和自适应分层归一化两种约束,构造了物理约束长短期记忆神经网络(PCLSTM)。利用PC-LSTM基于常规测井曲线预测地质力学测井曲线,并成功构建地质力学模型。这一方法有利于根据易于获得的常规测井曲线构建精确地质模型,对实际勘探开发具有重要意义。3.将能源工程领域中的集合随机最大似然法(En RML)用于全连接神经网络(FCNN)和LSTM,通过将传统网络(FCNN和LSTM)的前馈过程与En RML结合,构造出基于协方差矩阵进行迭代优化的集合神经网络(ENN)和集合长短期记忆神经网络(En LSTM)。该类网络基于贝叶斯定理构建,可以提供不确定性分析,可以针对小数据量训练,且不依赖于导数计算,更适合于工程实际应用。在En LSTM中,通过引入模型参数扰动方法,有效解决了过度收敛问题,同时引入了标准化观测值的保比例扰动方法。最后,将En LSTM应用于测井曲线生成问题,并取得了较好的效果。
其他文献
为了探究不同品种乳清粉的饲料加工特性,文章在全国各地17家饲料生产企业采集了21个乳清粉样品,样品分别来自美国、丹麦、荷兰、加拿大等不同国家的食品乳品生产企业。其中低
接受理论关注人们长期以来忽视的读者与阅读接受的问题,认为只有当读者的"期待视野"与"文本视野"相融合,才能产生接受和理解。儿童文学的目标读者是儿童,儿童文学翻译要以儿童为
英汉两种语言都存在着大量的禁忌语。在对中西方禁忌语比较的基础上,注意禁忌语中存在的中西社会习俗和文化内涵的异同,能够更好地进行跨文化交际。
为了有效提高页岩气地震资料的信噪比和分辨率,从而实现高分辨率、高精度的多波联合优质页岩预测研究。本论文研究了页岩气藏地震资料高分辨率处理新技术,主要的研究内容和创
研究了无患子皂苷与十二烷基苯磺酸钠(SDBS)复配体系的表面活性,并将其应用于氢氧化镍复合材料的制备中;采用X射线衍射(XRD)和扫描电镜(SEM)对复合材料进行了结构表征,考察了表面活
罗非鱼是世界重要的淡水鱼类养殖品种,其性成熟时间早,性成熟后产卵周期短,并且雄鱼比雌鱼更具生长优势,如果雌雄混养会因群体内自繁进而造成罗非鱼养殖密度过大,规格参差不
女贞子作为中国传统中医常用的滋补肝肾药物。2015版药典收载了一百多种含女贞子的中药制剂,临床应用广泛。齐墩果酸(Oleanolic acid,OA)是女贞子中主要有效成分,具有保肝等
以小鼠巨噬细胞RAW264.7细胞为研究对象,采用噻唑蓝法、细胞染色法、相关酶活力的测定以及蛋白免疫印迹等方法,研究二十二碳六烯酸(docosahexaenoic acid,DHA)的免疫调节活性
出镜报道作为一种"现场书写"的电视新闻文本,与其他新闻叙事文本最大的不同在于叙事者——出镜记者的外显。通过对叙事学相关研究的借鉴,出镜记者的叙事视角可分为全知视角、
随着"放管服"改革的推进,简政放权、优化服务等成为社会各界关注的热点问题。然而对下放的事权是否能被基层政府顺利承接,是否会因压力过大等因素给基层公务员造成职业倦怠等