论文部分内容阅读
在软件管理系统中,数据大部分存储在传统的关系型数据库中,但当业务复杂度的提高和数据量的不断增加,简单的通过单一节点的数据库处理方式已经无法满足用户对于希望快速获取反馈的需求,从而影响系统的工作效率。因此,采用分布式来来存储和处理海量数据为本文的主要研究课题。
本文以《教育部学位与研究生教育评估工作平台》的专家遴选模块的专家评分环节为研究基础,针对用户需要多次进行遴选才能确定方案,导致随着数据库中专家信息数据的不断增加,在有限的硬件资源下用户需要大量的时间等待结果。其中专家评分环节占据专家遴选大部分时间,因此本文提出了采用Hadoop平台的分布式存储和并行计算功能来提高专家评分环节效率的解决方案。
本文的主要研究思路为构建Hadoop平台,将Oracle数据库中的专家信息数据存储到Hadoop的HDFS分布式文件系统中,通过Hadoop提供的MapReduce框架的map和reduce接口,实现分布式专家评分程序,并以专家分数为键对专家记录进行排序和分组。最后,通过Oracle数据库和Hadoop平台下专家评分程序的实验对比,得出随着专家信息数据量的增加,以及现有数据量下随着专家评分规则复杂度提高,基于Hadoop的分布式专家评分程序有更高的效率。
本文利用分布式存储和并行计算,提出并实现了提高专家评分环节效率的解决方案,并通过实验对比结果,进一步验证了Hadoop分布式平台实际应用于专家评分环节的可行性。