论文部分内容阅读
随着互联网技术的广泛普及与飞速发展,整个社会各种类型的数据总量飞速增长,我们正在步入大数据时代。在大数据时代数字图书馆面临着两个关键性问题:海量数字资源的高速检索和数字资源的深度挖掘与分析。传统的基于关系型数据库的技术体系在面对海量数据的检索和应用在性能上要面临着很大的挑战,所以为了更好地整合存储各类数字资源,提高海量数字资源的应用水平,提供专业化水平更高知识服务,数字图书馆应创新技术体系,适时引入大数据技术以此作为工作的新入口。本文以国家农业图书馆馆藏数据资源为对象,分析了国家农业图书馆现有资源的总体情况以及目前国家农业图书馆所使用的技术体系面临的问题,对比当今流行的大数据技术在性能和功能上的优势,提出了一种基于大数据技术的新型数字图书馆数字资源存储与应用的技术框架。此框架整合了HDFS、Hbase与Spark大数据存储与处理技术。随后在本研究设计的技术框架的基础上搭建了具有三个节点的实验集群,初步构建了大数据技术平台。论文后半部分论述了基于Hbase的大数据存储体系与基于Spark的大数据分析体系的优势,通过实例化的方式实现了基于Hbase的农产品贸易数据的存储与挖掘分析,借此方式对这种新型技术体系进行技术可行性分析与功能探索。本研究所使用的农产品贸易数据在数据存储层采用Hbase进行数据组织并通过HDFS实现数据的分布式存储,并通过实验对比分析基于大数据技术体系的农产品贸易数据库在性能上和关系型数据库优劣,实验结果证明采用论文提出的新型基于大数据技术的技术体系在数据检索效率上远远高于传统关系型数据库。最后利用Spark的高性能机器学习与计算功能,采用新型图计算工具Spark GraphX对农产品贸易数据进行基于复杂网络算法的深度挖掘研究,扩展了农业数字资源的应用场景。本研究从基于大数据技术的数据存储、数据检索、数据挖掘等多个方面探索了大数据环境下数字图书馆采用新型分布式数字资源存储与应用的具体实现方式,相比关系型数据库技术体系在性能上有所提升,有一定现实意义。