论文部分内容阅读
搜索引擎是人们检索互联网信息的一个重要工具。它由爬行器、索引器、查询器等3个部分组成。网页索引器是建立搜索引擎的一个关键组成部分,它负责对网页爬行器抓取下来的网页进行索引。目前商业搜索引擎大部分采用倒排索引模型。由于现在的网页数据是海量数据,对它们建立倒排索引是一个十分耗时的计算。另一方面,网页内容是不断更新,需要周期性的爬行互联网并重建倒排索引。串行倒排索引算法难以满足海量级网页数据的快速索引要求。由PC机构成的异构机群计算系统具有高性能、低成本、可扩展性好和易于实现等特点,因此,在异构机群计算系统上,设计出高效、实用的建立网页倒排索引的并行算法,实现一个分布式并行网页索引器,对于建立高性能的搜索引擎有重要的意义。
针对建立网页集倒排索引的串行算法完成时间长的不足,根据归并排序的性质满足可分负载理论的特性,提出一个基于三元组排序一归并的分布式并行算法。将解析出来的术语用一个三元组表示,分布式并行处理网页中术语的解析和术语记录三元组的多步归并排序计算两步。在机群计算系统上,应用基于Java的分布式并行计算中间件ProActiVe,设计和实现了一个基于该并行算法的名为P_Indexer的分布式并行网页索引器。算法分析和实验结果表明,该并行算法有较高的效率性和可扩展性。
针对异构机群系统中从处理机节点具有不同的计算能力、通信速率的情形,考虑通信启动开销和传输数据时间,根据基于三元组排序一归并的建立网页倒排索引的并行算法满足可分负载理论的特性,提出一个建立网页倒排索引的并行算法的网页文本最优分配的线性规划模型,给出网页文本集的最优子集值,讨论了处理机的最优分配顺序。基于文本最优分配策略的建立网页倒排索引并行算法的耗时分别比文本按平均分配、按从处理机能力分配的并行算法耗时缩短约14%-19%he%-8%。