论文部分内容阅读
搜索引擎是互联网技术的重要应用和研究热点。随着互联网、移动互联网的发展与普及,搜索引擎成为人们获取网络信息的重要途径。因此,如何在信息量庞大的网络资源中快速而准确地定位到用户所需要的信息是衡量一个搜索引擎质量的标准。随着网络信息数据的膨胀,传统的集中式检索已经无法满足搜索引擎海量信息处理和存储的需求。同时,搜索引擎用户不仅在数量上呈爆炸式增长,而且请求并发性高。所以如何提高搜索引擎的存储和处理能力,最大限度满足用户需求,具有重大的研究意义。本课题着重对影响搜索引擎检索质量的关键因素进行分析,围绕海量数据的存储和信息检索机制进行深入研究,论文主要研究内容如下:首先,论文分析了当前传统搜索引擎存在的缺陷问题和技术瓶颈,在了解搜索引擎特性和技术需求基础上,提出一种基于云计算架构的搜索引擎系统,通过云计算理论改进和优化搜索引擎。在系统实现过程中采用开源云计算平台Hadoop作为底层架构,设计并实现搜索引擎的各个模块和功能。其次,由于当前检索技术普遍存在检索效率低、查全率和查准率不理想的问题,所以论文在云计算架构模式下,提出一种新的基于Map/Reduce的索引数据分类云存储模型,通过Map/Reduce的强大并行计算能力改进索引数据的处理效率,从而提高用户检索满意度。此外,论文在研究HDFS元数据管理机制过程中,结合当前负载均衡算法和数据管理的周期性反馈机制,对负载均衡和心跳反馈机制进行改善和优化,使得系统在不影响对元数据管理的基础上,减轻服务器节点的负载压力和节点数据信息传输过程中占用的网络带宽,从而提高了系统的稳定性和扩展性。最后,本文在实验室环境下对系统进行实验,跟踪实验数据,测试系统的整体性能,通过实验数据,论证系统的优越性。