论文部分内容阅读
勘查地球化学数据分析,一直是找矿勘探工作的重要环节。随着地表及浅部矿越来越少,寻找深部和隐伏矿特别是寻找超大型矿的任务,给地质工作者带来了挑战;在化探数据处理方法上,传统的方法越来越表现出局限性,寻求新的地球化学数据处理方法更加必要。
支持向量机是数据挖掘技术的一种分类方法,是在统计学习理论的基础上发展起来的,它在解决小样本、非线性及高维模式识别问题上表现出许多特有的优势,对利用有限的化探数据提取更多的信息表现出极大的意义。
本文首先介绍了化探数据处理的国内外研究现状,并对支持向量机的发展及常用的算法进行了简单说明。
其次,本文给出了支持向量机(Support Vector Machine,即SVM)及其训练问题的数学描述。SVM训练问题归结为解一个带有线性等式和不等式约束的大规模凸二次规划问题:先给出当训练样本线性可分时训练SVM得到的原始优化问题,并得出其对偶问题。继而引出当训练样本不可分时,把原样本空间映射到一个线性可分的高维空间,通过引入核函数构造对偶问题,接着再说明允许错分样本时的训练问题。最后,根据上述理论提出了化探数据在支持向量机下的异常下限确定方法。
随后,本文重点分析了序列最小优化算法(Sequential Minimal Optimization,简称SMO),研究了SMO算法的理论基础、算法的推导过程(包括用解析法求解带约束的子规划问题和每次成功优化后相关变量的更新)以及每个子规划问题优化变量的选择策略。
本文还针对化探数据属性多的特点,提出了一种新的方法,将粗糙集(RoughSet)理论应用于化探数据的预处理阶段,在不影响分类精度的前提下,对样本数据进行属性约简(即寻求化探数据的最优指示元素组合),这样经过约简以后的样本在训练阶段可以明显地提高训练速度和预测准确率。
最后,以云南澜沧江南段化探数据(识别铜异常)为例,先用粗糙集对化探数据进行处理得到最优指示元素组合,然后通过支持向量机进行训练确定异常并对澜沧江南段的铜异常区进行评价。