论文部分内容阅读
定性数据分析是数据分析的一个重要内容,它在地质工程、医学、生物学和社会科学中有着广泛的应用。随着各方法应用范围的扩展和深入,定性数据的分析也日益受到重视。
一般来说,数据按其取值方式的不同可以分为四类:(1)计量数据;(2)计数数据;(3)名义数据;(4)有序数据。前两类是定量数据,而关于定量数据的统计分析方法也很多,而且有很多方法都已经比较成熟;后两类是定性数据,它们是属性统计研究的对象。人们可以采用列联表的形式,来分析各数据之间以及各数据属性之间的关系,如确定它们的分布情况,参数估计等问题。但是,列联表的分析方法远远不能解决我们实际中要处理的复杂问题。一般来说Logistic回归模型也是一种很好的处理定性数据的非线性方法,该模型中的因变量通常只能是二元变量,这无疑限制了它的应用,而且对于实际数据,尤其是地质工程数据,可能由于其获取非常困难,样本量很少,而无法较好的估计优比值,也限制了该方法的应用。我们有必要对定性数据的处理算法进行进一步的研究。
本文对定性数据算法的研究主要从两个方面入手:一是从非线性方法方面进行分析,引入GMDH算法处理定性数据,对GMDH算法作了一些相应的改进,使之适合处理定性数据;二是从聚类分析方面进行算法研究,改进了模糊k-modes算法。由于工程数据复杂多样,许多获取的数据都不能像连续变量一样进行定量分析,其中存在着大量的定性数据。然而大量的处理定量数据的算法都无法有效的处理定性数据。本文就结合实际工程数据对定性数据的算法进行研究,如滑坡稳定性、地面塌陷等问题,并做出相应的实际数学模型,进而对该工程数据进行实际预测及分类。论文共分五章:
第一章详细介绍了数据的分类和论文研究的理论背景及现实意义。阐述了定性数据的种类,其可由名义数据和有序数据组成。定性数据广泛存在于医疗、地质工程、生物等领域,本章主要分析了地质工程中定性数据的处理问题和地质灾害,如滑坡、地面塌陷等,给人们生活带来的影响及其研究的重大现实意义。
第二章主要包含三个方面的内容,首先介绍了定性数据的量化方法,包括名义数据转化为二元变量的方法以及有序数据的可加编码的方法。在数量化理论方法及其它定性数据的处理算法中,定性数据的量化是各算法的预处理过程,也是一个关键的步骤,关键看量化后的变量是否可以真实反映各指标情况及其差异;另外简单介绍了常用于处理定性数据的Logistic回归算法,但对于工程数据,不仅其变量间有较强相关性,而且通常其获取非常困难,数据量很少,各数据受地域影响显著,限制了Logistic回归算法的应用;最后本章重点介绍了GMDH算法,通过重新定义变量间的运算,将该算法扩展应用于处理定性数据,且将其中间准则中的常数C看作可变的,来加强算法对变量的选择能力。该算法已经成功应用于经济、股市、油藏等问题的预测分析,本章将其扩展后应用于长江三峡工程库岸的33个大型、典型崩塌滑坡的勘测实验资料的系统分析。由于崩塌滑坡问题本身的复杂性,其指标均由有序定性数据表示,通过对检验样本及预测样本的分析结果,可以看出该算法是一种有效的算法,同时为三峡地区的滑坡预测工作提供了一种科学决策的依据。
第三章主要讨论定性数据的聚类算法的研究,模糊k-modes算法是模糊k-means算法的一种推广,从而将定量数据的聚类算法推广为处理定性数据,仍然是一种目标最优化的方法。为了寻求更优的局部最优解,介绍了几种推广算法,如模糊j-modes算法,VNS、TS、CLS等算法,这些推广算法都是通过迭代寻找一个更好的初始解,来改善最优解,使其尽可能的全局最优。各算法都有其优点和不足,如VNS算法通过聚类中心的邻居结构,来随机挑选新的聚类中心,这样可以扩大聚类中心的搜索范围,但由于随机性,不能保证新选出的聚类中心是一个好的聚类中心,对最终聚类结果的影响是显然的,而由于上述的算法都是基于距离的聚类算法,所以样本间一个好的非相似度的定义是至关重要的。本章的主要研究成果包括:一、定义了一种自定义的非相似度,它可以很好的反映样本间的差异。二、介绍了一种自动搜索聚类中心的方法,该方法搜索的聚类中心可以很好的反映不同的类别。针对以上各算法中共同的缺点,最后介绍了一种改进的模糊k-modes算法,该算法在迭代过程中用各属性的各属性值的频率来表示聚类中心,可以较好的克服属性值丢失的现象。
第四章是实例分析部分,应用改进的模糊k-modes算法评价武汉市地面岩溶塌陷危险性。目前岩溶塌陷危险性预测还是较多采用预测图的形式表示,而本文正是通过地理信息系统软件(GIS)来实现的。本章首先介绍了GIS软件的功能和一些常规预测岩溶塌陷危险性的方法。由于岩溶塌陷的影响因素复杂且相互限制,所以本文从地形、地貌、地层岩性、地质构造、水文地质条件、工程地质概况和岩溶地质特征几个方面详细介绍了武汉市的地质情况,通过实际地质情况的分析和已有的一些岩溶塌陷危险性评价方面的成果,从水文地质条件、覆盖层特征、岩溶基础条件三个方面选取了13评价指标,利用改进的模糊k-modes算法建立预测模型,从预测图上可以看出极高危险区主要分布于灰岩分布区域,该地区岩溶发育程度较高,而且覆盖层具有上层为粘土下层为砂土的二元结构,而低危险区没有可溶性灰岩,岩溶程度不发育,覆盖层的富水性也较差,因此,发生塌陷的可能性较小。对于武汉市已有的塌陷地区均发生在极高危险区,说明应用改进的模糊k-modes算法评价武汉市地面岩溶塌陷危险性是一种有效的方法。
第五章对本文的算法研究及实例分析成果作了总结,并对今后的工作提出了展望。