Hadoop平台的海量数据并行随机抽样

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:minglinjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“信息爆炸”的当今社会,海量数据对数据挖掘提出新的挑战。在数据挖掘转向云计算平台实现并行化的同时,研究并行化数据随机抽样进一步降低处理的数据规模。提出一种单次扫描即可实现清理脏数据并实现等概率抽样的mapreduce并行抽样算法。在hadoop平台上实现并与普通随机抽样方法进行比较,得出其时间效率非常高,是一种行之有效的方法。为以后数据挖掘中的抽样研究和推动数据挖掘在海量数据下的发展奠定良好基础。
其他文献
由于国内外资本市场对上市的要求及上市后的管理有着显著的差异,一些原本不符合在A股上市的新兴企业选择了在美国上市,然而,由于美国监管当局对上市后公司的监管是非常严格的
本文通过东莞玉兰大剧院工程,介绍了多孔夹片锚固体系(群锚体系)在大跨度有粘结预应力梁施工中的应用及施工中应注意的问题。
本文结合新形势下国有企业人事培训现状,分析了国有企业人事培训中存在的问题,并就如何提高国有企业人事培训水平提出了自己的看法。
本文作者长期在防水工程中担任施工管理,通过实践经验的积累及所见所闻,对混凝土防水抗渗性能结合体会提出自己的见解,供同行参考。
处于家纺行业龙头的富安娜在2009年的最后—个交易日成功上市,透过对这样—个中小板上市的微观样本的深入剖析,有着十七余年民企CFO生涯的富安娜上市操盘手的梅连清“先规范后
虽然业务发展上波折不断,但摩托罗拉中国在财务管理上已经深得跨国公司的“真传”,形成了严谨的内控体系、业务和财务的通力合作关系以及开放的文化。
为了更有效地优化粗粒度可重构单元阵列映射加速性能,提出了一种行节点无依赖约束的空域映射调度方法,基于相同条件下,采用时延Petri网对若干个按约束已经被划分映射到可重构单
成本管理关乎企业发展的成败,施工企业应根据经营模式和规模,权衡利弊寻找适合企业发展的方法。
文章综述了改性淀粉类絮凝剂的特性及其研究现状,系统分析了以淀粉为原料改性而成的天然高分子絮凝剂的理化性质、絮凝动学力及絮凝机理,并介绍了改性淀粉类絮凝剂在生产和生
在楼板结构施工中,当浇筑本层混凝土过了12小时后,就要进行上层的钢筋混凝土和楼板工程,又极易污染或损坏已完成的楼面。为解决这个难题,我们尝试利用聚合物砂浆和粘结剂附着力,用