Spark环境下不完整数据集成填充方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:aa284636706
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前已有的不完整数据填充方法大多局限于单一类型的缺失变量,对大规模数据的填充效果相对弱势.为了解决真实大数据中混合类型变量的缺失问题,本文提出了一个新的模型——SXGBI(Spark-based eXtreme Gradient Boosting Imputation),其适应于连续型和分类型两种缺失变量并存的不完整数据填充,同时具备快速处理大数据的泛化能力.该方法通过对集成学习方法XGBoost的改进,将多种补全算法结合在一起,构建了一个集成学习器,并结合Spark分布式计算框架进行了并行化设计,能较好地运行于Spark分布式集群上.实验表明,随着缺失率的增长,SXGBI在RMSE、PFC和F1几项评价指标上都取得了比实验中其它填充方法更好的填充结果.此外,它还可以有效地运用在大规模的数据集上.
其他文献
  CO的去除在空气净化、染料电池中富氢气体的净化及合成氨原料气中微量CO的脱除等方面均有重要意义。CO甲烷化脱除法由于无需引入其他气体故在燃料电池富氢气体的净化中得
  光解水把太阳能转化成氢能,是解决氢能来源的最佳方法。光敏剂是光解水系统中不可或缺的部分,而常用的钌、铱、铂等光敏剂存在价格昂贵、环境危害等问题,纯有机光敏剂在光解
无人机自组网应用场景中,针对OLSR(Optimized Link State Routing)协议在数据通信阶段,无人机快速移动可能引起通信链路中断,并且OLSR协议没有链路维护机制,导致发包成功率降
  目前,半导体一维纳米材料己广泛应用于光催化剂.静电纺丝方法是一种简单经济的一维纳米材料制备方法,制得的纳米纤维更是由于其大比表面积而在光催化领域中占据重要地位.
会议
  全氟辛酸(PFOA)是一种新型的持久性有机污染物,其处置方法受到广泛关注.本文主要介绍全氟辛酸的光化学降解.首先说明了PFOA的化学降解主要涉及到氧化法和还原法。有报道
会议
异常数据检测一直是无线传感器网络安全的重要防护手段.针对现有方案计算复杂度高和检测精度低等问题,提出一种离散二进制粒子群优化孤立森林算法(BPSO-iForest).依据选择性
  本研究以化学形态冻结技术构建内外表面差异化的低管径TiO2   SiO2复合纳米管,之后刊用其内外管壁表面特性差异,对纳米管进行贵金属原位填充,将Pt纳米粒子选择性填充于管
社区发现是复杂网络分析领域的一项重要研究内容,而标签传播算法因在分析复杂网络时具有时间复杂度低等优点,获得广泛关注.但标签传播算法中的随机策略降低社区划分结果的稳
应用“身高标准体重法”评价我县儿童青少年生长发育和营养状况的变化福建省沙县卫生防疫站(365500)董建忠,陈淑敏,刘杏媚,方亚平,潘圣土根据《福建省中小学生健康监测方案》要求,我站从1986年
  饮用水水质与人体健康息息相关,目前许多经过常规处理后的饮用水中仍然含有多种有害成分,如有毒、致癌、致畸、致突变物质等有机污染物和一些致病微生物。光催化杀菌因为其