论文部分内容阅读
随着农业现代化的发展,农业用户对于农业信息资源产生了巨大的需求,近年来由于云计算、物联网、移动通信等高新技术的广泛应用以及政府和企业对农业信息化建设的积极倡导和推动,我国的农业信息化建设发展迅速,产生了各类农业网站,提供了各种丰富多彩的农业信息,为农业用户带了极大的便利,用户可通过搜索引擎方便地检索所需要的农业信息。但是,日益增长的农业信息也给搜索引擎和农业信息化建设带来了极大的挑战: 第一,农业信息化基础设施配置普遍较低、且较为分散,需要在现有的基础上对其进行整合,达到资源的合理化和最大化利用;第二,面对海量的农业信息数据,传统的集中式存储方式对服务器设备配置要求越来越高,昂贵的采购费用不利于农业信息化的发展;第三,如何从海量的农业信息数据中快速准确地检索到用户所需要的信息,这给搜索引擎提出了更高的要求。 针对目前存在的以上问题,对农业用户的检索需求进行调研分析,结合目前国内外垂直搜索引擎的研究现状,本文对农业垂直搜索引擎进行了研究,研究内容主要有: 将Hadoop大数据技术引入农业信息检索工作中,在大规模廉价机器集群上采用开源分布式平台Hadoop作为基础架构,利用开源分布式数据库HBase解决海量农业数据的存储问题,在深入研究Lucene全文检索工具包的基础上,结合MapReduce分布式计算模型在Hadoop上设计实现农业信息资源的分布式存储、分布式索引和分布式检索。 本文主要创新点包括: (1)设计了海量农业信息资源在HBase中的存储模式,解决了大规模数据集的高效分布式存储和实时随机读/写问题。 (2)改变了Hadoop现有的文档随机划分方案,运用Mahout机器学习框架在Hadoop上对海量文档进行分类,按照分类建立分布式索引,根据用户意图对索引进行检索从而减少了检索时启动的索引节点的数量,节省了系统开销,提高了检索效率。 (3)运用MapReduce分布式计算模型结合 Lucene原有索引机制实现了分布式索引和检索;并且改变了 Lucene原有的在磁盘上建立索引的方法,设计了先将内存作为索引缓冲区然后将索引写入磁盘的建立索引的方法,提高了索引效率。