基于分布式的搜索引擎框架研究和实现

被引量 : 0次 | 上传用户:kingbottle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络中的信息也是呈几何级数爆炸增长,人们查阅资料已不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎也越来越普遍应用到各个层面中,大到整个互联网络的搜索,小到本地文件的搜索,本文正是基于搜索引擎的普遍化,设计并实现了一个分布式的搜索引擎框架,能够应用于不同的搜索方案。 本文首先介绍了KM分布式系统所使用到的工具包,并且分析了其中的一些原理和实现机制。随后重点介绍了Hadoop分布式编程框架的原理。KM分布式搜索框架是基于Hadoop实现的,所以它具有非常好的可扩展性。使用Map/Reduce技术能够高效而稳定的运行分布式的任务。本文还详细探讨了信息抓取模块中负责访问网络部分的效率分析,采用DNS预转换的方式加速网络爬虫的访问速度。采用运行在每一个节点上的分布式搜索服务器,能够提供每个分布式节点中的索引数据的搜索能力。重点阐述了KM分布式搜索系统框架的实现。不仅给出了系统各模块之间的关系,而且还分析了各个模块的实现原理和思想。在本文相关模块的开发中,还尝试了使用测试驱动的开发方法,先写测试代码后实现,能够快速的开发出需要的功能而又保证程序的健壮性。对于分布式的应用来说,需要多次的调试,所以这种方法也是非常有效的。
其他文献
当今社会,高血压已成为一种常见的慢性病,严重危害着人们的健康。研究发现,一些乳杆菌在其发酵过程中会产生一类具有降血压功能的多肽——ACE抑制肽,这些多肽安全无毒,并且能够起
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
针对资源受限的无线传感器网络入侵检测效果不佳的问题,本文提出了一种基于机器学习的无线传感器网络入侵检测算法。该算法将数据局部密度和数据特征距离引入模糊聚类,提高了
本文以车流量自动检测技术为研究对象,针对传统的差分算法在图像识别过程中背景图像容易受外部光线环境干扰及目标图像提取不完整等问题,提出了一种基于背景差法和帧间差法的
<正>本文首先制备并表征了新型聚碳酸酯中间体(DmC(1)),用FTIR,MS,1HNMR对中间体结构进行了系统表征。然后利用DmC(1)中间体进行熔融缩聚反应制备聚碳酸酯(PC),用GPC表征了PC
随着我国逐步进入老龄化社会,以及每年交通事故等原因,重障者和老年人越来越多,同时他们也需要越来越多的关怀。随着社会的不断发展,重度残障人士的洗浴问题的解决显得尤为迫
我国的甘薯产量约占世界总产量的78%。目前,我国甘薯加工以淀粉及淀粉类产品加工为主,加工过程中会产生大量废渣(简称甘薯渣)。甘薯渣含有丰富的纤维素、果胶和残余淀粉,但通常被
为了在实际工程中因地制宜地选择合适的节能墙体形式。采用有限体积法,对处于典型夏热冬冷地区夏季室外气象条件下的空心砌块、含XPS保温材料砌块以及含相变材料(PCM)砌块墙体的
科技的高速发展和信息技术的运用,标志着知识经济的形成和到来,知识成为经济增长、社会发展以及企业成长的关键性资源。管理专家彼得·德鲁克曾说“目前真正的控制性资源和生产
当今的中国经济,正处于飞速发展的重要阶段,时刻面临着外部社会环境的巨大变化和自身对经济增长的极度渴求。如何建立行之有效的组织,如何使组织能快速响应环境变化的需求,实