基于分布式架构的元搜索引擎系统的设计与实现

被引量 : 3次 | 上传用户:caisilver
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展和计算机技术的广泛应用,人类已经步入了信息爆炸的时代。在互联网上涌现的大量信息以及信息结构的多样化,使得人们很难在没有其它工具帮助的情况下快速搜寻到自己想要的信息。中国互联网信息中心CNNIC于2012年公布的互联网用户白皮书中明确提出,随着互联网的快速发展,互联网上的数据继续保持着爆炸式的增长模式,每年的增长率已经超过10倍。用户在互联网上获取信息的渠道虽然呈现多元化发展的趋势,但门户网站、搜索引擎、博客、微博、论坛、社交网站等仍是用户获取信息的主要渠道。元搜索引擎是信息检索中Web检索技术不断发展的产物,由于它能够集合多个成员搜索引擎的检索结果,并通过相应的算法优化检索结果的排序,所以它返回的结果能大大提高检索结果的查全率和查准率,因此受到了互联网用户的广泛欢迎。但是,随着成员搜索引擎数量上升,返回结果较多时,检索的效率以及文档最后的排序问题成为了现在元搜索引擎发展的瓶颈。分布式系统的发展,旨在联合网络上的单个主机,将一个复杂的大任务分解为多个规模小、复杂度低的子任务。通过利用网络上大量的廉价机处理规模较小、复杂度低的子任务,可以将串行工作模式改为并行工作的模式,这样的改进可以大大提高用户检索的效率。本文首先阐述了近几年国内外元搜索引擎系统的发展现状,在此基础上引出了论文的主要研究内容。针对元搜索引擎系统在检索结果排序融合方面的不足,本文对已有的基于位置信息排序算法进行了改进。在将文档的位置信息转换为文档得分时,增加了对成员搜索引擎个数因素的考虑,同时,对文档的URL通过构造域名缓存表来计算文档URL的分值;在成员搜索引擎权值方面,采用多元线性回归中参数的最小二乘估计法计算出各成员系统的权值;最后根据线性组合算法模型计算出文档总评分并作为排序依据。为满足用户对检索实时性的要求,本文将分布式系统中的主从模式结构引入到元搜索引擎系统设计中。具体地,采用基于HTTP/1.1的通信协议作为各个工作模块的传输协议,以各下载节点的CPU负载率作为分发模块分发策略依据,所有返回的文档在系统的中央检索模块中根据排序融合算法进行评分。系统测试时,选取了目前较为流行的五个通用搜索引擎作为成员搜索引擎,选用搜索引擎与网络数据挖掘大会中的查询测试集作为检索测试数据,对返回结果的平均查准率做了测试。在实际网络环境下的测试结果表明,系统在查准率方面有了较为明显的提高,具有良好的开发和应用前景。
其他文献
传统的"讲授——接受"的教学模式,压制了学生学习的兴趣、激情和灵性,对话教学模式由于其能够较好地连接教师、学生和课本,能够达到激发学生学习积极性的目的。本文在分析了
将"儿童作文"置于生态学与教育学融合的高度,从儿童天性、童年经验、童年精神、童年文化、童年哲学等多个维度建构儿童嬉乐作文的意义和价值。颠覆了长期以来被技术化、工具
以福全古村落空间演变为例,通过建筑学、文献学、历史学等学科知识与方法的大整合,构筑系统协同的研究方法,以此解读福全古村落的历史空间、文化空间、街巷空间与建筑空间等
目的:观察益气养阴活血解毒方对急性病毒性心肌炎的临床疗效。方法:将60例患者随机分成两组,治疗组30例,对照组30例。治疗组给予益气养阴活血解毒法加常规西药治疗,对照组在给予常
【目的】观察云南彝药恒古骨伤愈合剂对人脐静脉内皮细胞损伤(HUVEC)的保护作用,探讨其对下肢深静脉血栓形成防治的可能机制。【方法】用LPS、TNF-α和PAF诱导HUVEC损伤,采用MT
改革开放以来,我国体育竞赛表演市场得到了快速发展,但由于起步较晚,体制不畅等原因,竞赛表演市场发展过程中还存在着各种各样的问题,影响了市场的发展,在此我们对体育竞赛表
伴随着我国社会转型和城市化过程中大批农民工进城,流动儿童的安全问题成为了一个日益凸显的社会问题。大量流动儿童居住在人员混杂、环境恶劣的城中村社区,流动儿童的性侵犯
随着时代的进步与发展,色彩搭配在室内空间的设计由初始的简单走向现在的丰富。好的色彩搭配方式可以提升整个幼儿园空间设计的视觉效果。本篇旨在通过幼儿园室内空间的色彩
目前研究认为,糖尿病并发肢体血管病变与血管内皮细胞(VEC)的功能障碍和血脂代谢紊乱有密切关系。本课题旨在通过临床观察血管张力因素:内皮素-1(ET-1)、一氧化氮(NO)、血栓素B2(TXB