基于对抗生成网络的随机缺失数据填补及其效果研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:nuclear01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的缺失是统计分析中不可避免的问题,它与异常值处理共同组成数据预处理的两大块内容。数据的缺失不仅会导致样本信息的缩减,还会使得很多统计学习方法无法使用。统计分析的结果取决于数据质量的好坏,如果不能对缺失数据进行恰当的处理,那么最终的分析结果也很难具有代表性。对于缺失数据的处理思路主要分为删除和填补两种,由于删除会导致样本信息的减少,故一般采用填补策略。随着大数据时代到来,数据维度的增大也带来了大量缺失数据出现的情况,如何对缺失数据进行准确且快速的填补成为了一个亟待解决的问题。GAN(对抗生成网络)近年来在深度学习领域的研究越来越多,其在样本生成方面有独到之处。本文在国内外研究的基础上,基于缺失数据填补和图像修复问题的相似性,将GAN的理论框架应用至缺失数据填补问题,设计了适用于该问题的网络结构,并将该方法与多重插补法、缺失森林法和EM法对比,分析各种方法的适用性。在模拟部分,本文通过计算机生成复杂分布的随机数,按照不同的观测数、变量数、缺失比例的组合分别用上述3种方法和GAN方法对同一缺失数据集进行重复填补,对比其填补精度、填补效果和填补速度,最后得出结论:在同一情况下GAN方法填补往往比上述三种方法更好。在实证分析部分,利用上述方法对加拿大天气数据进行缺失数据填补,最后得出与模拟研究相一致的结论。最后,本文就缺失数据的普遍性和不同填补方法的适用性两个角度进行全文总结,并就本文不足之处提出后续的研究建议。
其他文献
源于西方后现代主义哲学思潮的后现代课程观思想,历经兴起至蓬勃发展后,现已略显沉寂。然后,该理论本身的生命力并未凋零,它的本质内涵仍紧扣时代发展旋律,它的潜在价值仍待进一步挖掘。因此,在21世纪的今天,以信息化的角度重新审视后现代课程观是顺应教育变革所需。后现代课程观在当下构建知识经济、终生学习型社会的大环境中展现出来的思想本质是:强调人的个性解放、差异性与自由全面发展,重视个体创造性、批判性思维培
当前国内经济发展面临下行压力,资本市场波动加剧,历史积累的风险逐渐暴露,市场流动性日趋紧张。债券市场违约事件频频发生,企业的融资环境严重恶化。而股票市场也不景气,公司股价多次下挫,触发了企业股权质押的平仓风险,进而又反作用于公司股价,使得股市融资成本大大提高。这些违约风险严重影响了企业的信用质量,进而减少了企业可融资渠道,加重了融资难、融资贵的问题,也进一步增加了经济发展前景的不确定性,因此银行也
现如今随着网络规模和数据流量的日益增加,传统的网络架构已经无法满足市场上新技术的需求,为此引入了网络功能虚拟化(NFV)的概念。NFV的出现极大地提高了网络部署的灵活性,使得网络功能可以按需分配,从而提高资源的利用率。此外,多播路由作为一种高效率的传输方式,在现实生活中有广泛的应用,如IPTV、视频会议、软件更新等。借助于多播传输,多个用户之间可以共享网络中的资源(尤其是链路上的带宽)。有研究表明
自90年代我国资本市场成立开始,证券市场曾经出现共七轮股价“暴跌暴涨”的市场现象。在我国普遍存在企业之间交叉持股和股权质押的情况下,股价暴跌有可能引起资本市场的连锁反应,从而形成系统风险。如何更加有效地防范区域性系统风险的发生,是现在资本市场监管的重要工作内容。从资本市场监管角度,社会审计是资本市场监管制度不可忽视的组成部分,在防范整体市场层面的系统风险中发挥着重要作用。企业集团是当前资本市场相对
公司司法解散之诉滥觞于英美法系国家,我国《公司法》于2005年修订时新增了司法解散制度,填补了原《公司法》的空白。由于我国司法解散制度起步时间不长,关于该项制度的理论研究及司法实践还尤为稚嫩,因此对其进行更加深入的研究有着重要的理论和实践意义。从法律解释论角度出发,立足于目前的相关法律条文,结合国外立法实践,探讨司法解散之诉的适用条件。第182条规定了四项具体适用条件,在具体个案的审理中,必须同时
随着科学技术的日新月异,现今人们获取数据的能力也越来越强,所获取的数据往往具有规模大、维度高、多视角和多样化等特征,如何从数据中分析出有意义、有价值的信息尤为显得重要。对数据的分析,需要揭示数据中内在的复杂性和真实维度,并且能覆盖数据的全局和局部结构特征,而子空间表示算法恰好能够从高维数据中挖掘出数据潜在的低维数据结构特征,是一种有效的处理高维数据的方法。近年来,子空间表示的相关问题已成为学者们的
全息天线的原理源自光学领域的全息成像技术。全息天线系统仅包括全息阻抗表面和馈源,无复杂的馈电网络,结构十分简单;且设计难度较低,可以轻松设计出可复现任意波束指向的全息图案。但目前大部分全息天线都采用的不可重构的简单方形金属贴片作为其单元结构,结构是固定不变的,所以一款全息天线只具有单一功能。要实现全息天线的可重构,找到可重构的单元结构是关键。本文以实现可重构全息天线为目标,在对全息天线的工作原理有
目前,各国货币在国际地位以及货币价值上有很大差异,货币错配这一现象在新兴国家广泛存在并且是难以避免的问题。显而易见,中国作为一个最大的发展中的新兴市场国家,所出现的货币错配规模与其引发的各种经济风险必然是国内外学者不断研究的主题。本文基于我国经济主体债权型货币错配不断累积的事实,构建和测度我国国家整体和行业两层次货币错配程度指标,对货币错配影响经济的内在机制进行研究,探讨汇率等因素的波动对货币错配
产品和服务创新为制造企业获得竞争优势的重要推动力。然而,无论产品创新还是服务创新,都离不开跨职能部门知识和资源共享。职能部门间通过合作来分享内外部知识,也为有限的资源而相互竞争;此外,不同层级的人际关系在跨职能互动中也发挥着不同的社会资本效用。近年来,跨职能关系对企业创新的影响,逐渐成为一个研究热点。既有研究主要集中在部门间合作或竞争这两种关系单独的影响,较少考虑到部门间往往合作与竞争并存,更忽略
记忆整合,是指个体通过对两个或多个单独但相关的学习情节进行加工整合以自我获得新知识的过程,它是构建语义知识库的一种重要方式。线索是信息的内部思维转变或外部提醒,以来帮助人们对目标信息进行回忆。综合以往线索对记忆整合的研究,发现线索的作用还存在很大的争议,什么样的线索提示能够促进记忆整合,还尚待探究。此外,研究人员对学龄前儿童、小学生和大学生记忆整合的影响因素进行了研究。初中生群体却很少涉及,考虑到