基于Map-Reduce的大数据缺失值填充算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:cloudyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
其他文献
不同波长的紫外线,其生物学作用会有所不同。依据紫外线生物学作用的光谱特点及紫外线对动物机体的生物学效应,重点综述了紫外线照射对动物免疫系统的影响,并就紫外线的研究
目前是国内建设节能、环保型社会和北京2008年绿色奥运的筹备期。十六届五中全会提出要建设创新型国家,强调要自主创新、要形成自主知识产权、形成自己的知名品牌。随着知识经
基于2010~2015年间的A股日收益数据和资金流量日度数据,对大股东减持事件前后的机构投资者交易行为进行研究。实证结果表明大股东利用内部人优势精准选择了减持时机,减持前30
在言语交际活动中,称谓语隐含着丰富的文化特性。从社会语言学的视角探讨英汉称谓语的文化隐喻的差异及其语用原则,是对提供一种外语教学与学习的新思维的尝试。
本文通过对120例乳腺癌改良根治术患者术前、术后心理问题分析,对如何采取有针对性的心理护理措施及术后功能锻炼的方法进行探讨。
结垢现象普遍存在于工业生产的换热设备中,通常会给生产过程造成极大危害。电磁场抑垢除垢技术由于具有比其他传统方法自动化程度高、投资少、操作简单且不会给环境造成污染
2017年第二期环境执法师资培训班将于10月11日至10月18日在武汉大学国际学术交流中心举办。培训由环保部环境监察局主办,西尔环境教育承办。培训对象为各相关省(区、市)在环
假拟分裂句作为分裂句中的一种,在语言学领域一直以来受到广泛关注。元语言功能是韩礼德定义的一组高度字符化并且抽象的功能,包括概念功能、语篇功能、人际功能。本文选取假
目的:考察复方苦参酊剂对炎症小鼠和大鼠的抗炎作用,为该药的新药申报奠定基础。方法:动物随机分为空白对照组、复方苦参酊剂低、中、高剂量组(33,66,110 mg·ml-1)、消肿止
<正>1临床资料患者,男,44岁。因发作性右侧肢体活动不灵1 y加重1d于2015年9月5日入院,近1 y反复出现右侧肢体活动不灵,约7~8次,每次发作约持续数小时,最长时间约10 h后完全缓