论文部分内容阅读
Internet上大量的文档资源具有隐藏性,无法通过链接结构直接抓取,对它们的发现和利用是通过搜索引擎提供的界面来实现的.随着互联网的迅猛发展,如何能对互联网上的这些隐藏的资源进行充分有效的发现和共享成为迫切的需要.STARTS、SDLIP、SDARTS等协议应运而生.这些协议提出了元搜索和元搜索器的概念.即在客户与各个资源实体之间架构一个搜索中间件来实现对不同资源实体中文档的有效检索和利用.该文主要论述了基于SDARTS的元搜索器的实现,以及对其进行的完善,使之成为一个真正意义上实用的元搜索器.工作包括对资源的文摘提取、检索中自动的资源选择、对无得分文档的在线评分、对不同资源结果的融合等工作,其中最主要的工作就是结果融合子系统,其中主要的创新是在线评分算法和结果融合算法.Internet上绝大部分资源(搜索引擎)所返回的查询结果,都只有排序而没有具体的结果得分分布.所以,要实现对不同资源所返回的检索结果的融合,首先对于那些没有结果得分的资源,就需要评估其返回结果的得分分布情况.如何有效的评估资源的检索结果的得分分布呢?该文采用了指数模型的方法,对资源的检索结果进行建模.并利用检索出的结果总数信息、检索结果各个条目的元数据信息,来估算指数模型的参数,最终形成得分分布模型,实现对资源检索结果的得分评估.我们把该文的得分评估算法与其他评估算法进行了比较,而该文的评估算法效果更好.在完成评估得分分布的算法之后,还需要对不同资源的结果得分进行统一,并以这个统一的标准对不同资源的结果进行统一的排序,最终把这个排序以统一的界面反馈给用户.如何统一不同资源的得分呢?该文利用检索结果中各个条目的元数据信息作为标准,同时使用线性回归的算法,把各个资源的得分映射到一个统一的得分.这样既考虑了原资源的结果排序和得分分布,又考虑了不同资源之间得分的映射关系,且实现非常简洁,效果比其他方法要好.目前,元搜索器系统能够有效的运转,就结果评分和结果融合,都达到了预期的效果.且该文所使用的算法,都是比较实用、易于实现的且有效的.