论文部分内容阅读
本文利用数据挖掘技术提出一种基于随机森林分类器对油田测井数据地质解释的方法。利用数据挖掘分类方法构建地质解释分类器模型,对测井数据进行分类解释,是一个低成本的泛化的地质解释手段,对石油勘探与开发具有显著的决策意义。论文通过对大量的文献的研究,探讨通过R语言构建测井样本数据随机森林分类器模型、评估与实现随机森林分类器的方法。油井测井数据变量维度高、数据量大、类型复杂,是一种典型的“多元分类”问题。讨论两种主要的划分子集方法,方法一以样本特征变量为主划分样本;方法二以样本解释类别为主,利用“二元分类”方法的思想对样本进行划分,分割成多个样本子集。以方法二作为用于地质解释的随机森林建模样本集的划分方法,建模用的样本集以“可能含油气”的解释类别为主要样本构成。为改善样本集建模存在“过拟合”,在样本集中添加小量“噪声”样本数据,进一步提高随机森林分类器准确率。提出的解释类别为主的样本子集划分方法,是解决“多元分类”问题的一个高效的方法之一。