工程研究中缺损数据的填补方法分析探究

来源 :城市建设理论研究 | 被引量 : 0次 | 上传用户:wildboar2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:
   本文主要讲述了工程研究中缺损数据的主要的简单填补方法,涉及了人工填补、特殊值填补、回归填补、信息扩散填补以及多重填补,并浅析了各种填补方法的优缺点。但在实际问题中,仍需要考虑各方面的因素,结合实际情况,对填补的数据进行最优化处理。
  
  关键词:
   缺损数据 ; 信息扩散; 多重填补
   前言
  随着工程技术的发展越来越迅速,人们所掌握的各种工程手段也更加的成熟,但工程研究主要是以大量的数据处理为基础的,这就使得工程数据的分析与处理显得尤为重要。然而,在现实的数据采集与发掘的过程中,由于数据采集技术和偶然的原因,使得某些重要的数据丢失或无法测得,致使这些工程研究与应用的难度增加,且研究所得结论也会或多或少地受到影响。在现实情况下,缺损数据所造成的影响主要有以下几点:1.含有缺损数据,导致获得的信息量减少,使统计精度降低;2.数据处理中的许多假设都是建立在无缺损数据的前提下,致使处理的结果不正确;3.缺损数据本身就是重要的数据源,使得后续计算与处理无法继续。由此可知,对这些缺损数据或不完备数据的处理将成为工程研究上一大重要问题。
  工程上缺损数据产生的原因以及主要的處理方法
   缺损数据产生的原因是多样的,主要分为由于器械精度不够而导致测得错误的数据或者无法测得的数据和由于人为的原因导致数据记录错误或数据丢失。而在工程研究上,由人的失误等主观因素导致的缺损数据是可以避免的,这些缺损数据大多数是由于器械等客观因素导致的。例如在地震研究中,许多数据都不可能准确地测得;再例如在古建筑研究方面,如何根据现测得的古建筑材料性能参数估计该古建筑在不做人工处理的条件下仍能保存的时间……缺损数据可谓无处不在,缺损数据的处理或许将成为工程师的一大难题。
   目前,工程上处理这些缺损数据的方法主要是删除、填补和忽略。现阶段最常用的处理方法就是删除了,甚至一些统计软件也常用这一依据,在所删除的元组相对于整个数据系统相对比较小的情况下,该处理方法非常有用,且简单易行。然而很多时候,缺损的数据本来就是很重要的数据,必须要获得该缺损值,这种方法就不可行了;同时,在所挖掘的数据本来就少的情况下,这种以牺牲现有数据来得到完整的数据系统也是不明智的,该方法的局限性就在于此。对于填补缺损数据,无疑是一种比较实用的处理方法。在填补恰当的情况下,对数据的后续研究与处理将起到非常重要的作用。本文主要就是讨论缺损数据的最优填补方法。再者,就是忽略这些缺损的数据,也即不处理这些数据。相比于删除和填补误差较大的情况,直接在含有缺损数据的数据集上进行数据分析与处理也不失为一种较好的处理方法。
  缺损数据的填补方法分析比较
   填补缺损数据,也即将缺损的数据用合适的值代替。如何使代替值与真实值接近则成为填补的关键,若填补合适,则将对数据的进一步处理起至关重要的作用;相反,填补出现较大的失误则将对后续的分析带来困惑,甚至得到错误的结果。一般情况,缺损的数据不外乎两种,一种就是缺损的数据是具有离散性质的,例如决策表中的属性;另一种则是具有连续性的,例如高耸建筑某时刻的沉降值。
   人们通常观测到的数据不可能是连续的,往往是测定需要的数值或者通过观测某些特定点的值来近似估计所需要的值。对于具有连续属性的数据,需要将其离散化,变为具有离散特性的数据,需要某些特定值时,则可以用离散缺损数据填补的方法将其进行填补,这大大减少了数据观测的复杂程度。而连续属性离散化,就是在连续属性的特定范围内划定若干个离散点,将连续属性分为若干个离散区间,若区间划分较小的情况下,则可以用该区间某一属性值代替该区间的属性值。目前国内外连续属性离散化的方法主要有等宽区间法、等频区间法、K一means算法、ChiMerge算法、StatDise算法等。对于不同的连续属性,应采用相应的方法将其离散化,继而用离散型缺损数据的填补方法将其填补。由此,数据填补最终都可归为填补离散型缺损数据。而对于离散型缺损数据(以下简称为缺损数据),主要的填补方法有以下几种:
  人工填补
  人工填补,顾名思义,就是由人直接将缺损的数据填补完整。由于最了解数据的还是数据获得者,因此这个方法得到的数据与真实值也较为接近。同时人工填补也是现阶段为数不多的不以现有数据为依据的填补方法。但当需填补的数据规模较大时,这个方法明显不合适,工作量大,费时费力。
  可能值填补
   所谓可能值填补,就是利用现有数据填补缺损值,它是以最大概率的可能取值来补充所缺的值。以下介绍的可能值填补主要有平均值填补、众数填补、中位数填补、期望最大填补、相似对象值填补等。
  2.1 平均值填补
   平均值填补,就是取该属性其他对象取值的平均数作为该属性的取值。平均值填补分为总平均值填补和条件平均值填补。总平均值填补是取将该属性集的所有属性的平均值作为填补值,若同一属性存在多个缺失值,则这些填补值将完全相同,不符合变量之间的波动规律。相反,条件平均值填补是将这个属性计划分为若干个范围,取缺损值所属范围的属性集的平均值作为填补数,这显然对变量的波动程度的估计有所提高。平均值填补也存在一定的缺陷,首先均值填补已经降低了整个属性集的方差;其次,若填补的变量所在的属性集不符合正态分布或与正态分布相差较大,则平均值填补就不合理了;最后,当缺损值的属性集是非数值型的时候,平均值填补则不能进行。
  众数填补
   众数填补,就是取该属性其他对象取值的众数作为该属性填补值。对于具有较高重复性的属性集,众数填补比平均值填补显得更加符合属性集的变化规律。而对于非数值型的缺损值,有时也可考虑采用众数填补。
  中位数填补
   相比于平均值填补和众数填补,中位数填补就是取属性集的中位数作为填补值。对于变量分布是偏态的属性集,中位数填补比平均值填补要更加准确。中位数填补同样可以应用于非数值型的属性集。
  期望值最大填补(EM算法)
   EM算法就是这样,假设我们估计知道A和B两个参数,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。这种方法强调先对缺失数据进行估计,最大化是在忽略缺失数据的前提下进行最大似然估计的。当具备缺失数据的估计值和给定的观测值时,就可以进行期望计算,求出缺失数据的条件期望,用期望值代替缺失值,进行循环计算,直到最大似然估计收敛为止。这种方法的最大优点源自于在大样本条件下,它能非常简单地执行并且能通过稳定、上升的步骤可靠地找到全局最优值。
  相似对象值填补(热卡填补)
   相似对象值填补,也即热卡填补,它要求在现有的数据里找到与缺失对象最相似的对象,用该对象相应的属性值代替缺失值。该方法简单易行,且能保持填补数值与变量非常接近。但该法主观因素较多,没有同一的标准衡量相似度,而且耗时费力。
   同样,众数填补、中位数填补、热卡填补也可以拓展成条件众数填补、条件中位数填补、条件热卡填补。
  回归填补
   回归填补,即是通过建立变量Y与自变量Xi(i=1,2,…)的回归模型来预测Y的缺失数据,也即建立缺损数据所在的变量关于自变量的函数关系式,进而用该点的函数值代替缺失值,在现阶段主要可以通过多项式拟合来填补缺损的数据。在数据量较小的情况下,该方法明显有扭曲数据分布的缺点,并且对于相同的Xi,如果对回归模型不加以处理,就会得到相同的填补值,这就和总体均值填补一样,扭曲了变量的变异性质。若在回归填补中增加一个随机成分,将其和作为填补值,这样就克服了扭曲变量变异性质的缺陷。这种方法的关键在于如何确定最优的回归函数关系模型,不同的情况要具体而议,而且要考虑许多客观因素。
  信息扩散填补
   信息扩散原理是由黄崇福教授提出的,虽然现在还不是完全很成熟,但在数据填补、风险评估等领域有着很重要的意义。它的原理是将A点的信息或数据通过一定的衰减传递到其他点,再将这些点得到的信息依次传递下去,最后B点肯定能得到一定的信息量。反之,B点得到的信息或数据也可传递给A点。通过该方法,我们可将已有的观测值通过一定的扩散形式传递给需要填补的观测点,进而用这些点最终得到的传递值代替其观测值。目前该方法存在的不足之处就是如何确定扩散函数以及扩散的窗宽,这都需要根据实际问题进行大量的验算,最终确定扩散函数及窗宽。
  多重填补
   以上介绍的填补方法,填补的数据都是唯一的。而多重填补的原理是首先为缺失值产生一系列用来填补的候选值,把这些候选值填补到缺失值后得到一系列的完整数据集合,对这些完整数据集采用相同的处理方法,再综合分析考虑,选取最合适的缺失数据候选值。该方法在确定候选值时可以应用上述的各种填补方法,而且考虑了许多不确定因素,在数据分析处理中占有很高的地位,但它不适合数据的挖掘,而且计算也很复杂。但如果我们已经通过前面所述方法得到了若干候选填补值,就可以用该方法确定最佳的填补值。
  总结
  缺损数据的填补方法固然有很多种,但针对不同的情况,如何合理的选取填补方法才是填补的关键。只有弄清缺失数据的原因、特性、数据类型、数据集分布等许多因素,才可以为选取合适的填补方法提供依据。而且通过以上的分析,每种方法都有其优缺点,如果在数据填补过程中能综合考虑,或者将不同的方法加以融合,可能会使得填补效果更加理想。除此之外,填补结束后还有考虑填补的合理性,即先填补后分析其合理性,如此循环反复,方可取得合理、理想的填补效果。
  
  
  參考文献:
  [1] 邓银燕.缺失数据的填补方法研究及实证分析[D].西安:西北大学,2010
  [2] 宫悦.基于粗糙集的不完备信息系统数据挖掘方法研究[D].大连:大连海事大学,2008
   [3] 张昕.不完备信息系统下空缺数据处理方法的分析比较[J].湖南师范大学学报,2008,21(4):444-447
   [4] 王新洲,游扬声,汤永净.最优信息扩散估计理论及其应用[J].地理空间信息,2003,01(1):10-21
   [5] 黄崇福.非完备样本知识优化处理[J].北京师范大学学报(自然科学版),1992,28(2)
其他文献
摘要:随着社会主义市场经济的飞速发展和电力改革的不断深入,电建施工企业间的竞争已呈现出“肉搏战”的白热化局面。如何应对复杂多变的市场形势,在激烈的竞争环境中走出一条求生存的发展之路,是电建施工企业所必须面对并解决的紧迫难题。  关键词:市场经济 电建施工 发展  随着社会主义市场经济的飞速发展和电力改革的不断深入,电建施工企业间的竞争已呈现出“肉搏战”的白热化局面。如何应对复杂多变的市场形势,在激
期刊
摘要:根据围岩级别、地质水文条件、施工环境、资源投入确定合理的施工方案,是实现安全质量有序可控的先决条件。特别隧道施工当遇到全断面砂层时如何制定和必选施工设计方案,达到有效堵砂的目的,显得异常重要。本文结合大西客专上白隧道施工情况,简要介绍隧道施工采用水平旋喷桩穿越砂层的施工技术  关键词: 水平旋喷桩、仰拱、封闭成环、技术原理、工艺参数  一、地形、地貌、地质、水文条件  上白隧道位于峨嵋岭南麓
期刊
摘 要:企业的财务管理是企业管理工作的重要组成部分,是企业管理的核心,对于改善企业经营管理,提高企业经济效益具有十分重要的作用。随着我国加入WTO,市场经济体制改革的深入,对企业财务管理造成了一定影响,我国传统的企业财务管理已经不能够适应现代企业发展的要求,因此有必要实行全面预算管理、强化资金管理、建立财务监督制度、实现财务业务一体化全面加强企业财务管理,提高企业经济效益。  企业财务管理相关概念
期刊
摘 要 :草坪绿化在园林绿化中起着重要作用,是城乡绿化先锋, 是生态环境的卫士, 是观赏的乐园,是活动健儿的摇篮。本文阐述了草坪病虫害的危害症状, 并提出了预防和防治措施。  关键词 草坪; 病虫害; 防治  0前言  草坪是园林绿化的重要组成部分, 它不仅可以美化环境, 而且可以改善一个地区的生态系统, 为人们休憩、娱乐提供良好的条件。近年草坪栽植面积迅速扩大, 但却忽视了草坪管理, 特别是病虫
期刊
摘要:黄姚古镇旅游规划策划通过多角度深入地分析研究,提出符合古镇自身特色的项目建设、品牌营销与实施机制等措施,很好地满足了政府、企业、民众三方面的利益诉求,为古镇旅游开发规划策划类项目提供了很好的借鉴。  关键词:古镇 旅游开发 规划策划  1 古镇旅游开发中规划策划的特点与重要性  1.1为古镇的跨跃式发展带来新契机  策划的大事件、大活动或大项目往往能给一个地区的经济带来跨跃式的发展。而古镇的
期刊
摘要:艺术专业学生在艺术方面具有一般普通大学生所缺乏的特长,但是他们的文化基础知识普通低于同届文理科的大学生。并且具备了扎实的文化知识有利于人的思想观念的提高、道德面貌的改观、意志情操的陶冶、语言举止的文明,有利于提高劳动者的全面素质。文化课的教学应给予艺术生更多的人文关怀,特别是文化的熏陶,人格的塑造,情感的培植,精神的洗礼,让艺术专业人才首先是一个有深厚文化底蕴的人。  关键词:艺术设计文化课
期刊
[基金支持:湖南文理学院教改立项课题:《现代信息技术在大学教学中的应用研究和实践》(JGYB1008 )]  摘要:随着现代信息技术的迅猛发展,信息技术在教学中的应用对教育教学改革产生了深刻的影响。本文以湖南文理学院为例,简要论述现代信息技术在大学教学中的应用所带来的变化、优势、问题及对策。  关键词:信息技术 大学教学 传统教学  1引言  21世纪是知识经济的时代,以知识和信息的产生、传播及应
期刊
1 基本情况  吴起县位于延安市西北部,洛河与无定河上游。西北与定边县为邻,东北和靖边县相连,东南与志丹县接壤,西南与甘肃省华池县毗邻。地理坐标介于北纬36°33′33″~37°24′27″,东经107°38′57″~108°32′49″之间。南北长93.4公里,东西宽79.9公里,土地总面积3791.5平方公里。全县由“八川两涧两大山区”构成,属典型的黄土高原梁状丘陵沟壑区。境内山大沟深、地形破
期刊
摘要    本文提出城市公共空间是宜居城市物理实现的要素之一,并在回顾近代南昌城市公共空间的发展的五个阶段(旧时代、计划经济时代、开放时代前期、开放时代后期和宜居时代)基础上,认为为了塑造一个好的城市公共空间,政府应该约束市场力量的自发行为,并在其中充当“裁判者”和“执行人”的角色,尽量避免成为“利益分享者”,并且明白建设城市公共空间的最根本目的是为了满足人交流的需求。    宜居城市与城市公共空
期刊
摘要:笔者结合高压输电线路工程施工多年的实践经验,简要回顾了110KV输电线路工程施工中应该注意的问题,并通过对输电线路基础工程部分关键问题的分析,探讨了相应的措施和方法。关键词:110KV输电线路 工程施工 对策 0 引言 随着国民经济实力的增强,我国的高压输电线路逐渐呈现呈现距离长,容量大的特点。目前,已采用以110KV电缆线路直接进入城区无人值班变电所或地下变电所,将110KV直接降压为10
期刊