增强的生成对抗式网络缺失数据插补方法

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:doudou2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临和数据科学的发展,学术研究者和数据工作从业者越来越重视数据的价值,在分析研究中更倾向于获取更多更全面的数据,同时这也使得数据冗杂、数据结构复杂和信息缺失的现象越来越普遍,这给数据挖掘工作带来巨大的挑战。其中缺失数据的处理是数据预处理过程中十分重要的一项。缺失数据插补是缺失处理技术中最常用的方法之一,因为它尽可能的保留了原始信息,且使得不完整的数据变得完整。但是现有的缺失插补方法存在很多局限性,如仅适用于数据缺失机制是完全随机缺失的情况,必须要有完整的样本进行模型训练等严苛的条件,这也导致了这些插补方法的适用范围很窄。本文探讨了数据缺失机制和缺失模型,用列均匀的和列非均匀的两种方式分别模拟了完全随机缺失、随机缺失和非随机缺失三种缺失机制,考虑到一般性,仅模拟一般缺失模型。对原始完整的数据进行标准化和正态化的预处理,然后模拟产生缺失值。考虑到指标评价的一致性,本文选用UCI网站的4个分类任务的数据,包括全数值变量数据集和数值变量、类别变量混合数据集,能代表大多数的数据结构。此外,还模拟产生了多元正态分布的模拟数据进行重构误差的分析。选择均方根误差(RMSE)和基于类别变量的错判率(PFC)指标衡量数据重构误差,用逻辑回归的AUROC衡量重构数据的预测能力。为了能够适用于不同缺失机制和数据结构,本文提出的算法是无监督的算法,避免需要完整数据进行训练的尴尬情况。该算法应用模型增强的思想,先用无监督的机器学习方法进行初始插补,再用基于深度学习的生成对抗式网络插补方法(GAIN)进一步插补。生成对抗式网络插补(GAIN,初始插补为0值,文中为了统一标记,记作zero-GAIN)也是一种无监督的插补方法,所以这样一种叠加的插补方法还是无监督的,本文将该方法称作增强的生成对抗式网络插补方法,简记为Boosting-GAIN。为了探讨初始插补方式带来的影响,本文一共采用了均值插补、K近邻插补方法和缺失森林插补三种方法作为初始插补,然后和GAIN方法进行对比分析。本文在真实数据集和模拟数据集上都证实了Boosting-GAIN方法在各种缺失机制下,数据重构能力和在重构数据上的在预测能力都比GAIN方法要好,其中基于缺失森林为初始插补的Boosting-GAIN插补算法(MissForest-GAIN)表现最好,也是本文推荐的算法。此外,本文还发现随着缺失程度的增加,在本文实验的每一种算法中都表现出明显的趋势性:随着缺失率的增加,重构误差增加,预测能力下降。
其他文献
作为电磁理论的两大应用,雷达和通信技术已经广泛应用于各个领域。除了传统的作战平台,新型的智能交通系统也需要雷达和通信设备来传递信息和感知周围环境。无论是战备应用还是民用领域都希望实现系统的高集成度和多功能化,因此,在现有的硬件条件下,通过将雷达和通信系统集成在一个平台的方式,设计一种能够同时实现信息传输和雷达探测两种功能的系统,以减小系统体积、缓解频谱资源紧张、减小设备间的电磁干扰具有重要的研究意
白云岩中赋存的油气资源量丰富,约占全球油气总量的25%。塔里木牙哈区块寒武系白云岩经多年钻探,已证实具有巨大的油气勘探开发潜力。白云岩储层非均质性强,裂缝普遍发育。储
为了加强对柴达木盆地非常规油气藏的科学研究,本文以阿尔金山前东段基岩为研究对象,针对基岩的岩石学特征、年代学特征以及地球化学特征进行系统全面的分析测试,从而对阿尔
巴塞尔银行监管委员会在2012年将VaR(Value at Risk:风险价值)替换为ES(Expected Shortfall:期望损失)作为金融市场风险度量的工具,以克服VaR存在的不满足一致性风险定理和阻
2001年末,经国务院批准,第一家农村商业银行由农村信用社改制成立,随后《深化农村信用社改革试点方案的通知》、《农村商业银行管理暂行规定》相继出台,农村信用社的商业化改革大幕拉开,越来越多的农村商业银行挂牌出现在公众的视野中,截至2018年底,全国农村商业银行数量达到1397家,占全国农村金融机构总数的35.7%,占全国银行业金融机构的30.45%,其对“三农”经济的发展起着十分重要的作用。改制后
流式视频已成为迄今为止网络流量的最大组成部分,并随着互联网的快速发展呈现出爆炸式增长态势,网络视频用户体验质量(Quality of Experience,QoE)已成为用户与网络运营商共同关注的重要问题。如何在海量视频中提升用户观看视频的体验质量,满足终端用户的观看体验需求是当前视频网络性能优化的核心问题之一。针对这一问题,论文基于内容分发网络(Content Delivery Network,
创新是引领发展的第一动力,是建设现代化经济体系的战略支撑。企业作为国家创新体系最基本的微观单元,是践行国家创新战略、驱动经济社会发展的重要力量。要进行技术创新就必须得有资源,推动创新以获得持续竞争优势,企业需获取各方优势资源并加以优化配置。知识经济时代,知识越来越成为推动企业创新并获取竞争优势的首选性、关键性资源。当前知识与企业创新关系的研究,更多的聚集于知识的多样性,而知识元素之间的连接关系比知
私募可交换债券自2013年以来在我国发展迅速,发行数量和规模在2017年达到了最高值,但在2018年出现了大幅度的下降。私募可交换债券在丰富了我国债券品种,提高了资本市场运行效率的同时也存在着一定的问题。本文通过描述性统计和案例分析,对私募可交换债发行的动因和效应进行研究,期望拓展该领域的研究范围,也为私募可交换债券发行方、私募可交换债券投资者、标的上市公司和其中小股东提供更多的经验参考。本文首先
能源是自然与社会相互作用的关键要素,是经济发展的重要支柱。随着化石燃料供应的日益紧缺和环境问题的日益突出,氢能有可能成为一种极具潜力的化学能源载体,并最终成为主要
黑酵母(Black Yeast)是一类在细胞壁内外产黑色素的酵母状真菌,是迄今为止发现的最耐盐真核生物之一。黑酵母具有典型的细胞多形性,产黑色素、胞外多糖等特征,但这些因素是否