基于MapReduce的Hadoop大表导入编程模型

来源 :计算机应用 | 被引量 : 0次 | 上传用户:lfwvb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大
其他文献
近年来,由于我国中小学教育信息化的快速推进,原有的教师信息技术培训模式“缺少系统化设计,教师团队建设不合理,培训成果难于固化,忽视培训综合平台建设”的问题日益显现出
为了探讨一种新型抗衰老活性因子——活性肽-N食用后的抗衰老作用,本研究通过给小鼠连续皮下注射D-半乳糖(200 mg/(kg·d),以体质量计,下同)建立衰老模型,造模的同时开始灌胃
目的:观察吲达帕胺联合缬沙坦治疗高血压合并糖尿病患者的疗效及对其血压的影响。方法:选取104例高血压合并糖尿病的患者临床资料,依据给药方式的不同,分为对照组和研究组,每组
目的建立一种快速高效提取分离八角中莽草酸的方法。方法采用吸附法,以水为溶剂,循环提取八角3次,料液质量比分别为1∶8,1∶7和1∶6,提取时间第1次为3 h,后两次都为2 h,合并3
在分析高技术企业技术创新网络中知识分类及特性的基础上,考虑技术创新网络中影响知识转移的知识吸收能力、网络知识更新率、折现率、转移时间、市场占有率及产品生命周期等
电导率和介电常数异常是地下水电磁法探测的物理基础,其异常特点为浅层空间连续性差,多呈非线性状态分布。电磁法探测地下水受地面条件影响较小,可以连续测量,成本低廉。瞬变
1有载分接开关变压器油不合格情况2010年6月,舟山电力局110kV岱山变增容更换下来的主变(型号SSZ9—31500/110,出厂编号2001—31—38)经大修后用作110kV书院变1号主变。大修后的1号
幼儿来自不同的家庭、有着不同的生活环境,他们的兴趣、经验各不相同.因此,他们在与环境发生互动过程中,会生成很多不同的主题,而这些主题最能体现幼儿最近发展区的需要.
目的探讨外源性核酸对四氯化碳(CCl4)诱导的大鼠肝纤维化模型血浆中去甲肾上腺素(NE)和多巴胺(DA)的影响及其抗肝纤维化的可能机制。方法将30只Wistar大鼠随机分为正常组、肝纤维化
为开发利用具有较高药用和营养价值的薏仁米,以薏仁米和精粳米为主料,根霉曲、红曲和酶制剂为糖化发酵剂,适时加入药食两用植物料,以传统喂饭工艺酿造而成薏仁米黄酒.产品呈