基于云平台的分布式索引与检索系统的设计与实现

来源 :东北大学 | 被引量 : 7次 | 上传用户:hdu07095238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展和互联网时代的到来,互联网上的信息呈爆炸式增长。面对这些海量数据,随着数据文件的增多,索引时间呈线性增长;当承载高访问量或者索引数据规模很大时,检索服务器无法在有限的时间内处理请求。如何快速的建立索引以及如何高效的检索成为极其关键的问题。另一方面,现在的搜索引擎(如Google和百度),检索结果只包含网页数据,而没有结构化数据,用户必须选择某个网页寻找所需要的结构化信息,检索结果不能直观的展现事物的详细信息,用户体验效果不理想。解决这两方面的问题对从互联网上获取信息具有极其重要的意义。为了解决上述问题,本文设计并实现了一种分层的基于云计算平台的分布式索引与检索系统。首先,针对数据量大和单机索引慢的问题,提出了一种使用Lucene并行建立倒排索引的方法,该方法运行在Hadoop集群的多个节点上,使多台机器同时建立索引,大大加快了索引建立的速度。其次,提出了一种基于Katta的分布式检索方法,成功解决了高访问量和索引数据规模大导致的检索慢问题。检索时一方面分级缓存检索结果,如果缓存命中则直接返回缓存结果,未命中时才检索索引;另一方面将索引分布到Katta集群的多个节点上并备份索引文件,检索时多个节点同时搜索,提高了检索速度以及系统的可靠性可扩展性。再次,提出了一种以树形结构展示结构化数据,以类百度和谷歌的形式展示网页数据的数据展示方法,改善了用户查询体验。最后通过对网页数据进行分析,选择包含手机和公司信息的网页数据对系统进行了全面的测试。通过实验及实际应用证明,本文所设计的系统可以很快地对海量数据建立索引,并能够快速地响应查询,查询结果中直观的展示结构化数据,同时具有良好的可扩展性及容错性。
其他文献
人机界面越来越向着自然化、智能化、集咸化的方向发展。纸笔方式是人们捕捉思想、记录事件、交流信息的重要手段,由于笔式界面的非精确性以及泛化计算理论的要求等原因,手写笔
随着计算机技术的发展,特别是网络技术的发展,计算机系统已经从独立的主机发展到复杂的、互连的开放式的系统,这一变化导致了系统入侵的蔓延。同时,计算操作系统和网络通信技术的
现代计算机通信网正朝着ATM交换网和宽带综合业务数字网(B-ISDN)的方向发展,其服务业务包括话音、数据、传真和视频等。每种业务都有不同的统计特性并需要不同的服务质量(QoS)
心理学实验是推动心理学研究和心理学发展最主要的手段,因此,普通心理学实验在心理学教育中发挥着非常重要的作用。普通心理学仪器实验存在许多问题使得心理学实验计算机化成为
当前网络规模不断扩大,复杂性不断增加,网络的异构性越来越强.一个网络往往由若干不同大小的子网组成,包括不同厂家的网络和通信设备.在互联网中,这些设备的互联互通必须遵循
网络处理器是一种可编程的设备(比较典型的是一种芯片),它经过专门设计和高度优化来完成各种网络功能.事实上,网络处理器不仅仅是指某一类设备或产品,而更广泛地代表了一种网
随着网络应用的不断发展,网络安全问题也日益突出。越来越多的安全技术被应用到网络安全领域。入侵检测是网络安全体系中新兴的一门技术,它是一种主动的防御技术,也是当今计
并发系统是现实世界中一类重要的复杂系统,已广泛应用于军事、交通、商业和服务业中,纵观现代软件行业,从操作系统到互联网,并发程序无处不在。虽然并发程序在当前有着广泛的应用
宽带城域网是国家骨干网在城市范围内的延伸,可向企业、居民提供IP数据业务,并且为用户提供了极为丰富的带宽资源。但缺乏有力业务支撑的城域网,使得用户规模裹足不前,宽带难以融
进化计算有四大主要分支:遗传算法,遗传编程,进化策略和进化规划。它们是一类模拟生物进化过程与机制的随机优化算法。 因为进化计算的独特理论和解决一些问题的能力,自80年代