论文部分内容阅读
元搜索结果合成是将多个成员搜索引擎的检索结果进行结果融合的过程。结果合成技术作为元搜索引擎中的关键技术之一,直接影响用户对元搜索引擎的满意度评价。已有的结果合成技术采用单一的排序算法对结果重排序,然而单一算法在不同的网页结果重叠率下表现不一,导致在不同查询词下用户的查询效果差异显著,影响了元搜索引擎的性能。针对该问题,本文提出一种基于Agent的动态结果合成方法,选取多个排序算法作为成员排序算法,利用智能Agent感知当前查询词下的结果重叠率,根据重叠率动态调度其中最优的一种成员排序算法进行结果合成,从而缩小不同查询词间的查准率差异,提高用户满意度。本文的主要贡献包括设计动态结果合成策略以及设计基于Agent的结果合成子系统,具体的工作内容有:(1)通过分析单一算法的局限性,确定动态调度排序算法的策略。该策略选择多个算法作为成员排序算法,将结果重叠率作为算法调度条件。论文使用静态经验学习确定动态调度策略,即确定在当前结果重叠率下的最优算法。(2)设计结果合成过程中的去重,确定去重使用的方法及流程,同时确定结果重叠率计算公式。(3)由于当前的成员搜索引擎返回的结果不包含网页的初始相关分值,因此论文使用逻辑回归方程估计CombMNZ算法和SDM算法的初始相关分值。(4)根据论文的成员排序算法选择标准,确定动态调度的成员排序算法,同时分析这些算法的算法思想和计算公式。(5)利用用户点击日志数据分析用户对成员搜索引擎的偏好和用户的检索主题兴趣,使用成员搜索引擎权重和用户兴趣权值修正动态合成的结果,实现基于用户兴趣的结果合成。(6)在“智搜”元搜索引擎上实现基于Agent的结果合成子系统,分析系统结构图并对子系统中的各Agent模块进行分析。(7)设计实验验证论文所做的工作,实验分为三部分:在动态结果合成实验中,将本文提出的方法与Borda Fuse、CombMNZ等算法进行对比,验证了基于Agent的动态结果合成方法具有较高的查准率;在基于用户兴趣的结果合成实验中,对比登录用户与未登录用户进行相同检索时返回的结果序列,验证了添加用户兴趣因素后系统能够满足用户的兴趣需求;在基于Agent的结果合成性能实验中,对比使用Agent的结果合成与未使用Agent的结果合成所需时间,验证了使用多Agent系统实现结果合成在时间性能上具有的一定优越性。