定性数据的算法研究及其在工程数据中的应用

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:jrelt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
定性数据分析是数据分析的一个重要内容,它在地质工程、医学、生物学和社会科学中有着广泛的应用。随着各方法应用范围的扩展和深入,定性数据的分析也日益受到重视。 一般来说,数据按其取值方式的不同可以分为四类:(1)计量数据;(2)计数数据;(3)名义数据;(4)有序数据。前两类是定量数据,而关于定量数据的统计分析方法也很多,而且有很多方法都已经比较成熟;后两类是定性数据,它们是属性统计研究的对象。人们可以采用列联表的形式,来分析各数据之间以及各数据属性之间的关系,如确定它们的分布情况,参数估计等问题。但是,列联表的分析方法远远不能解决我们实际中要处理的复杂问题。一般来说Logistic回归模型也是一种很好的处理定性数据的非线性方法,该模型中的因变量通常只能是二元变量,这无疑限制了它的应用,而且对于实际数据,尤其是地质工程数据,可能由于其获取非常困难,样本量很少,而无法较好的估计优比值,也限制了该方法的应用。我们有必要对定性数据的处理算法进行进一步的研究。 本文对定性数据算法的研究主要从两个方面入手:一是从非线性方法方面进行分析,引入GMDH算法处理定性数据,对GMDH算法作了一些相应的改进,使之适合处理定性数据;二是从聚类分析方面进行算法研究,改进了模糊k-modes算法。由于工程数据复杂多样,许多获取的数据都不能像连续变量一样进行定量分析,其中存在着大量的定性数据。然而大量的处理定量数据的算法都无法有效的处理定性数据。本文就结合实际工程数据对定性数据的算法进行研究,如滑坡稳定性、地面塌陷等问题,并做出相应的实际数学模型,进而对该工程数据进行实际预测及分类。论文共分五章: 第一章详细介绍了数据的分类和论文研究的理论背景及现实意义。阐述了定性数据的种类,其可由名义数据和有序数据组成。定性数据广泛存在于医疗、地质工程、生物等领域,本章主要分析了地质工程中定性数据的处理问题和地质灾害,如滑坡、地面塌陷等,给人们生活带来的影响及其研究的重大现实意义。 第二章主要包含三个方面的内容,首先介绍了定性数据的量化方法,包括名义数据转化为二元变量的方法以及有序数据的可加编码的方法。在数量化理论方法及其它定性数据的处理算法中,定性数据的量化是各算法的预处理过程,也是一个关键的步骤,关键看量化后的变量是否可以真实反映各指标情况及其差异;另外简单介绍了常用于处理定性数据的Logistic回归算法,但对于工程数据,不仅其变量间有较强相关性,而且通常其获取非常困难,数据量很少,各数据受地域影响显著,限制了Logistic回归算法的应用;最后本章重点介绍了GMDH算法,通过重新定义变量间的运算,将该算法扩展应用于处理定性数据,且将其中间准则中的常数C看作可变的,来加强算法对变量的选择能力。该算法已经成功应用于经济、股市、油藏等问题的预测分析,本章将其扩展后应用于长江三峡工程库岸的33个大型、典型崩塌滑坡的勘测实验资料的系统分析。由于崩塌滑坡问题本身的复杂性,其指标均由有序定性数据表示,通过对检验样本及预测样本的分析结果,可以看出该算法是一种有效的算法,同时为三峡地区的滑坡预测工作提供了一种科学决策的依据。 第三章主要讨论定性数据的聚类算法的研究,模糊k-modes算法是模糊k-means算法的一种推广,从而将定量数据的聚类算法推广为处理定性数据,仍然是一种目标最优化的方法。为了寻求更优的局部最优解,介绍了几种推广算法,如模糊j-modes算法,VNS、TS、CLS等算法,这些推广算法都是通过迭代寻找一个更好的初始解,来改善最优解,使其尽可能的全局最优。各算法都有其优点和不足,如VNS算法通过聚类中心的邻居结构,来随机挑选新的聚类中心,这样可以扩大聚类中心的搜索范围,但由于随机性,不能保证新选出的聚类中心是一个好的聚类中心,对最终聚类结果的影响是显然的,而由于上述的算法都是基于距离的聚类算法,所以样本间一个好的非相似度的定义是至关重要的。本章的主要研究成果包括:一、定义了一种自定义的非相似度,它可以很好的反映样本间的差异。二、介绍了一种自动搜索聚类中心的方法,该方法搜索的聚类中心可以很好的反映不同的类别。针对以上各算法中共同的缺点,最后介绍了一种改进的模糊k-modes算法,该算法在迭代过程中用各属性的各属性值的频率来表示聚类中心,可以较好的克服属性值丢失的现象。 第四章是实例分析部分,应用改进的模糊k-modes算法评价武汉市地面岩溶塌陷危险性。目前岩溶塌陷危险性预测还是较多采用预测图的形式表示,而本文正是通过地理信息系统软件(GIS)来实现的。本章首先介绍了GIS软件的功能和一些常规预测岩溶塌陷危险性的方法。由于岩溶塌陷的影响因素复杂且相互限制,所以本文从地形、地貌、地层岩性、地质构造、水文地质条件、工程地质概况和岩溶地质特征几个方面详细介绍了武汉市的地质情况,通过实际地质情况的分析和已有的一些岩溶塌陷危险性评价方面的成果,从水文地质条件、覆盖层特征、岩溶基础条件三个方面选取了13评价指标,利用改进的模糊k-modes算法建立预测模型,从预测图上可以看出极高危险区主要分布于灰岩分布区域,该地区岩溶发育程度较高,而且覆盖层具有上层为粘土下层为砂土的二元结构,而低危险区没有可溶性灰岩,岩溶程度不发育,覆盖层的富水性也较差,因此,发生塌陷的可能性较小。对于武汉市已有的塌陷地区均发生在极高危险区,说明应用改进的模糊k-modes算法评价武汉市地面岩溶塌陷危险性是一种有效的方法。 第五章对本文的算法研究及实例分析成果作了总结,并对今后的工作提出了展望。
其他文献
建筑工程电气安装施工质量,作为其质量的组成部分,直接关系到建筑使用的舒适性、安全性与实用性,加强其安装施工研究,提高施工质量是当前房地产开发时代的重要课题之一。现代
乌尔善导演的《画皮2》围绕人妖换心的主要故事情节,在唯美华丽的画面包装下,却呈现出有佛家哲学意味的皮相和心相(肉体和心灵)之间的两难抉择,从而突破了通俗人妖恋的主题桎
北京正负电子对撞机Ⅱ(BEPCⅡ)是进行高能物理研究的大型国家实验室,北京谱仪Ⅲ(BESⅢ)是工作在BEPCⅡ上的大型通用磁谱仪。  高能物理实验中测量粒子总能量的探测器被称为
相对于传统的多晶和非晶薄膜材料,纳米结构薄膜具有优异的磁学、光学、物理、化学和电化学特性,因而在诸多领域中具有广阔的应用前景;另一方面,起源于二十世纪七十年代的复合
随着相关理论和数值算法的飞速发展,基于密度泛函理论的第一性原理方法已广泛应用于凝聚态物理、量子化学、表面科学、分子电子学和计算材料科学等。它不仅用来解释相关实验结
本文从中国影视动画的发展现状入手,分析了民族文化与影视动画题材及艺术风格的关系,进而探讨将中国民族文化融入影视动画作品的现实意义,并提出通过挖掘中国传统文学与艺术
一天晚上,一班朋友在某酒楼吃饭。朋友相见,把酒言欢。  人无贵贱,但酒量有高低。一朋友很快就脸红脖子粗了。  喝高了的朋友,话也多了起来。拿着酒杯,搭着另一朋友的肩膀,狂侃自己前两天是如何神勇地搞定一个客户,拿下一个大单,他两年内不愁没钱给员工发工资了。  说到兴头上,朋友站起身,把手一扬:“我相信我的公司一定……”  “啪!”  朋友光顾着豪气盖天,却没注意旁边的服务员正走过来。朋友端着酒杯站起
我的朋友唐恩自认为是当音乐家的料.可是在我记忆中,上初中时他演奏手鼓并不怎么高明,唱歌又五音不全,实在让人不敢恭维.光阴似箭,我们中学毕业后即失去了联系.我念大学,读研
本论文以二茂铁亚胺环钯和N,O-配体鳌合的环钯化合物为催化剂,研究了其在碳-碳偶联反应中的催化活性。主要研究内容如下:1、使用二茂铁亚胺环钯催化剂,成功实现了其在绿色溶剂中催化的N-甲基亚胺基二乙酸(MIDA)硼酸酯参与的Suzuki-Miyaura偶联反应,高产率地合成了一系列芳杂环化合物。研究结果表明,使用Ph3P解聚的二茂铁亚胺环钯催化剂,芳(杂)环溴代物能在氮气保护下、以K3PO4为碱、E
大跨径预应力混凝土连续刚构桥是一种常规桥梁,具有无伸缩缝、跨越能力大、无需大型支座、行车平顺、无伸缩缝等特点,其目前已被广泛应用到大量桥梁工程领域。大跨度预应力连