论文部分内容阅读
随着信息技术的快速发展,各领域的数据呈现爆炸式增长,其中包含了大量的缺失数据以及冗余属性,而这些干扰数据往往会影响人们做出正确的决策,因此对这些数据进行处理将变得更加迫切。压缩感知能够在信号采样率较低的情况下高精度地重构出原始信号,同时也能对缺失数据重构,但其重构精度受候选集选择的影响。粗糙集理论针对冗余属性可以取得较好的应用效果,但其性能受知识粒子划分的影响。为此,本文为提高重构的精度,研究用S型函数改进分段弱正交匹配追踪(Stagewise Weak Orthogonal Matching Pursuit,SWOMP)重构算法;为提升属性约简性能,研究基于斯皮尔曼相关系数的邻域粗糙集(Neighborhood Rough Set,NRS)属性约简算法。并将这些技术应用于油气测井之中。主要的研究工作或创新如下:(1)基于基追踪和正交匹配追踪算法的对比分析。由于采集或收集的数据受到缺失值等噪声的影响时,其决策结果往往会出现偏差。当重构精度相同时,为了寻找缺失值重构效率更高的算法,对基追踪和正交匹配追踪进行对比,结果表明了采用正交匹配追踪算法的缺失值重构运行时间更快、更稳定。(2)采用S型函数改进的分段弱正交匹配追踪重构技术研究。针对SWOMP在迭代中采用固定的门限参数很容易对候选集造成欠估计或过估计,受“开始阶段快速接近、最后阶段逐步逼近”规则的启发,研究S型函数的选取问题,通过一维信号和二维图像分析对比以及测井数据实验仿真,证明了SWOMP6重构精度最优。(3)基于斯皮尔曼相关系数的邻域粗糙集(SCCNRS)属性约简技术研究。为了构造更适用于样本之间相似性的距离测度,根据“类内间距小,类间间距大”的规则,采用斯皮尔曼相关系数改进邻域粗糙集中的欧氏距离测度,从而确定其属性的重要度,最后采用邻近算法(KNN)、高斯贝叶斯分类(Gaussian Naive Bayes)和支持向量机(SVM)验证其属性约简的准确率。通过对UCI数据进行仿真分析,证明了SCCNRS属性约简的有效性和优越性。(4)油气层分类识别实际应用。为了提高油气层分类识别的准确率,建立了基于采用S型函数改进的分段弱正交匹配追踪重构技术和SCCNRS属性约简技术的油气层分类识别模型。经某X井测井油气层数据应用,结果表明,经过采用S型函数改进的分段弱正交匹配追踪对缺失值的重构以及SCCNRS对冗余属性进行属性约简,其分类识别精度得到提高,为实际油气层分类识别提供了科学依据。