基于Hadoop的并行化存储和处理方法及应用研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:A_TRY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈的需求,从而影响系统的工作效率。因此,采用分布式来来存储和处理海量数据为本文的主要研究课题。   本文以《教育部学位与研究生教育评估工作平台》的专家遴选模块的专家评分环节为研究基础,针对用户需要多次进行遴选才能确定方案,导致随着数据库中专家信息数据的不断增加,在有限的硬件资源下用户需要大量的时间等待结果。其中专家评分环节占据专家遴选大部分时间,因此本文提出了采用Hadoop平台的分布式存储和并行计算功能来提高专家评分环节效率的解决方案。   本文的主要研究思路为构建Hadoop平台,将Oracle数据库中的专家信息数据存储到Hadoop的HDFS分布式文件系统中,通过Hadoop提供的MapReduce框架的map和reduce接口,实现分布式专家评分程序,并以专家分数为键对专家记录进行排序和分组。最后,通过Oracle数据库和Hadoop平台下专家评分程序的实验对比,得出随着专家信息数据量的增加,以及现有数据量下随着专家评分规则复杂度提高,基于Hadoop的分布式专家评分程序有更高的效率。   本文利用分布式存储和并行计算,提出并实现了提高专家评分环节效率的解决方案,并通过实验对比结果,进一步验证了Hadoop分布式平台实际应用于专家评分环节的可行性。
其他文献
随着网络技术的不断发展,特别是我国信息化建设的不断普及,电子政务的应用日益广泛。电子政务是政府部门应用现代信息通信技术,将管理和服务两项职能通过网络技术进行集成,向
随着互联网的发展,社交网络发展迅速,尤其是移动社交网络随着用户数目的增加而备受人们关注。然而,当前的移动社交网络中还存在着一些不足。现在的移动社交网络只是支持好友之间
支持向量机(SVM)具有理论基础完备、所需训练样本数目少、泛化能力强等优点,已经在文本分类、人脸图像识别、手写数字识别、语音识别、生物信息学等模式识别领域中获得广泛应
网络图中的motif是一种连通的导出子图,并且满足在原图中出现的次数比它在随机图中出现的次数多很多。这种性质可以解释成这种子图在原图中扮演了比在任意的随机图中更加重要
随着多媒体技术的迅速发展以及互联网的普及,数字图像广泛应用于日常生活和工作中,与此同时图像编辑处理工具Photoshop、ACDSee等的迅速发展,使得编辑图像内容变得越来越简单。
在教学实验中直接使用CoreABC指令集系统进行代码编程,对于初步接触数字电路的学生而言是有一定难度的,从而造成难以完成实验目标以及理解CoreABC微控制系统。如果用标准C语
作为组合优化领域与计算机科学中的一个重要分支,装箱问题越来越受到人们的关注与重视。随着科技的发展,组合优化问题在生活中的应用越来频繁,装箱问题的研究得到了飞速的发展,并
随着工作流技术广泛应用于生物信息学实验,其整合分析工具完成复杂生物计算的能力越来越受到人们关注。生物信息工作流通过一种模块化的流程表达方式形象地描述计算分析的过程
近年来,科学技术迅猛发展,信息技术已经渗入社会、经济、生活等各个领域,但信息技术是一把双刃剑,一方面它的便捷性和全球性对经济的发展起到有力的推动作用,另一方面,其自身的缺陷
背包问题在众多工业领域中都能遇到,诸如交通、物流、切割及包装、电信、可靠性、广告、投资、预算分配和生产管理。在这些应用中,背包问题一般作为独立的问题或复杂的子问题出