基于生成式对抗网络的缺失数据填充与预测方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:readbookmen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代产生了海量的数据,这些数据中蕴含着许多有价值的信息,但也存在各种数据质量问题。由于在数据的获取、记录和保存的过程中,经常会发生部分数据缺失的现象,这些丢失了部分数据的不完备数据降低了数据的利用价值,所以它既给后续数据挖掘的过程带来了麻烦,同时也影响着数据用于进行指导决策的质量。因此如何有效处理不完备数据并且基于这些不完备数据进行高质量的决策研究有重要的现实意义。生成式对抗网络是近年来深度学习的热点研究方向,具有拟合高维数据分布的能力,因此本文采用该网络来学习缺失数据到完整数据分布的映射。本文主要对生成式对抗网络、高维度数据和高缺失率的不完备数据集的填充与预测方法进行了较深入的分析和研究,其主要工作和创新点如下:(1)研究了各种处理不完备数据的常用算法的适用条件和局限性。首先分析了不完备数据产生的原因、缺失机制和缺失模式,其次研究了大样本量下的数据缺失问题,然后分析了几种依托于深度学习技术的数据填充方法,最后分析发现大部分填充算法并未有效利用标签数据,也不能对大数量和高缺失率下的不完备数据集进行有效填充。基于此,本文提出了采用生成式对抗网络来解决以上问题的思想。(2)提出了一种缺失数据填充的生成式对抗网络MIGAN(Missing Data Imputation Generative Adversarial Nets)模型。MIGAN能对不完备数据集进行有效填充,同时协同训练的辅助预测网络使得填充结果与标签具有较好的关联性,本文在UCI的3个数据集和mnist数据集上进行了实验比对,实验表明MIGAN在不同维度和高缺失率的不完备数据集中和预测性能均好,尤其适用于高维度和高缺失率的不完备数据集的填充问题;另外从mnist数据集上的生成图片来看,MIGAN的生成结果具有较好的类别判别能力。(3)提出了一种半监督的缺失数据填充的生成式对抗网络semi-MIGAN(Semi-Supervised Missing Data Imputation Generative Adversarial Nets)模型来填充标签缺失的不完备数据集。本文在MIGAN的基础上进行了优化,提出的semi-MIGAN模型可解决不完备数据集存在标签缺失的特殊缺失问题,实验表明semi-MIGAN较其他方法具有更好的填充性能。
其他文献
空间辐射环境对空间任务中航天器和航天员会造成损伤,甚至导致航天任务失败。空间辐射包含多种辐射粒子,不同辐射粒子的成分、效应及损伤特点有所不同,随着航天任务向长时间
本文运用SWOT分析的原理和方法,对民用运力动员工作的内部优势和劣势、外部机遇和威胁进行研究分析,结合习近平总书记关于建设现代化后勤重大战略思想和军民融合重大战略决策
[安泰科讯]堪培拉7月7日消息,Terramin Australia公司表示,截至6月30日的第二季度旗下Angas矿锌和铅精矿产量翻番至16,187吨,较第一季度增加8,398吨。预计2009年该矿锌和铅精矿产
<正> 试剂变质是化学实验产生误差的重要原因之一。因此,严格地保护试剂对获得准确可靠的研究结果具有重大意义。本文试图着重探讨影响试剂变质(指化学性质、组成的改变和妨
我国自改革开放至今,在整整30年的城市化、工业化发展过程中,未成年人犯罪的原因随着社会的变迁发生了新的变化。新时期未成年人犯罪的职业化、低龄化趋势,且由侵财犯罪向暴
习近平总书记在考察内蒙古重要讲话中指出:“天苍苍,野茫茫,风吹草低见牛羊,内蒙古就有这样的美丽风光。保护好内蒙古大草原的生态环境,是各族干部群众的重大责任。”自治区九次党
目的:探讨选择性雌激素受体拮抗剂雷洛昔芬对大鼠垂体瘤GH3细胞株seladin-1基因表达及其对肿瘤细胞增殖和凋亡的影响,分析seladin-1基因的功能及其在垂体瘤发生和发展中的调控
本研究运用文献资料法、归纳演绎法在对武术情境教学的内涵进行认知的基础上,着重对中学武术课堂情境教学的教学内容的设置、教学手段的选择和实施步骤进行探讨。研究认为,中学
对0Cr17Ni12Mo2奥氏体不锈钢试样在不同参数下进行等离子渗氮,测试分析了试样表面硬度分布,用光学显微镜观察卡环腐蚀前后的宏观形貌,XRD测量试样表面相成分,优化出最佳的工
如果用一棵树来表示CIS.那么:MI是根,BI是校,VI是叶。——题记CIS的英语全体是CorporateIdentitySystem,简称“CI”,意思是“企业识别系统”,它是指企业将其理念、行为、视觉形象及