基于Hadoop的农业信息资源分布式检索研究与实现

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:regicide09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着农业现代化的发展,农业用户对于农业信息资源产生了巨大的需求,近年来由于云计算、物联网、移动通信等高新技术的广泛应用以及政府和企业对农业信息化建设的积极倡导和推动,我国的农业信息化建设发展迅速,产生了各类农业网站,提供了各种丰富多彩的农业信息,为农业用户带了极大的便利,用户可通过搜索引擎方便地检索所需要的农业信息。但是,日益增长的农业信息也给搜索引擎和农业信息化建设带来了极大的挑战:  第一,农业信息化基础设施配置普遍较低、且较为分散,需要在现有的基础上对其进行整合,达到资源的合理化和最大化利用;第二,面对海量的农业信息数据,传统的集中式存储方式对服务器设备配置要求越来越高,昂贵的采购费用不利于农业信息化的发展;第三,如何从海量的农业信息数据中快速准确地检索到用户所需要的信息,这给搜索引擎提出了更高的要求。  针对目前存在的以上问题,对农业用户的检索需求进行调研分析,结合目前国内外垂直搜索引擎的研究现状,本文对农业垂直搜索引擎进行了研究,研究内容主要有:  将Hadoop大数据技术引入农业信息检索工作中,在大规模廉价机器集群上采用开源分布式平台Hadoop作为基础架构,利用开源分布式数据库HBase解决海量农业数据的存储问题,在深入研究Lucene全文检索工具包的基础上,结合MapReduce分布式计算模型在Hadoop上设计实现农业信息资源的分布式存储、分布式索引和分布式检索。  本文主要创新点包括:  (1)设计了海量农业信息资源在HBase中的存储模式,解决了大规模数据集的高效分布式存储和实时随机读/写问题。  (2)改变了Hadoop现有的文档随机划分方案,运用Mahout机器学习框架在Hadoop上对海量文档进行分类,按照分类建立分布式索引,根据用户意图对索引进行检索从而减少了检索时启动的索引节点的数量,节省了系统开销,提高了检索效率。  (3)运用MapReduce分布式计算模型结合 Lucene原有索引机制实现了分布式索引和检索;并且改变了 Lucene原有的在磁盘上建立索引的方法,设计了先将内存作为索引缓冲区然后将索引写入磁盘的建立索引的方法,提高了索引效率。
其他文献
本课题是我院数字化建设中的重大需求。近年来,医疗行业信息化的发展十分迅速,医院的管理在多年的医疗体制改革的背景下,正向着现代化科学化的方向发展,相应地作为管理工具的HIS(
学位
目前,国内大多数钢材生产厂家都采用人工方法来计量捆扎线材的根数,效率低下,劳动强度高,计数误差大,而引进全自动生产线,成本较高,因此,他们迫切需要低廉的自动计数仪。从上世纪90年
本课题是根据国家税务总局提出的“以纳税申报和优化服务为基础,以计算机网络为依托,集中征收,重点稽查”的指导思想,是国家税务局优化服务职能、促进信息化建设、提高工作效
随着计算机应用越来越广泛,各个行业、各个部门都使用了相应的应用软件对其内部信息进行管理。而互联网的发展,要求能够实现各地区、各部门之间的互联互通,从而达到信息的交流和
随着互联网的进一步发展,合法和非法的信息大量充斥其间,基于内容的信息安全已经成为安全领域的一个新焦点。为了给用户能提供健康的、安全的信息,就有必要对非法网页进行过滤处
对自然景物模拟与绘制方法的研究一直以来都是图形学领域的热点研究问题,而植物场景的模拟则是其中一个重要的组成部分。本文主要讨论了真实感植物场景的图形学生成方法,就其中
随着语义网研究的不断深入,对大规模RDF图进行语义推理的速度之慢日益凸显。在传统的语义推理机制遇到瓶颈时,应用MapReduce和HBase来实现大规模RDF图的并行推理成为新的突破口
随着多媒体技术及Interner技术的迅速发展,各行各业对图象的使用越来越广泛,图象信息资源的管理和检索显得越来越重要。如何有效的管理和检索图象数据是多媒体以及数据库技术
数字电视被称为继黑白电视和彩色电视之后的第三代电视,由子它采用数字压缩编码技术处理视频、音频信号,使得电视广播以崭新的面貌出现,不仅提高了视频、音频的质量,而且提供
随着社会发展和科技进步,人们对空间信息标绘的应用越来越多,对空间信息标绘的获取和使用也正在向分布式、交互式和以数据服务为中心转变,希望在网络地理信息标绘平台上对感