论文部分内容阅读
对搜索引擎的检索质量进行评价是信息检索领域的一个重要方面,因此,人们提出了许多搜索引擎评价指标。各种评价指标本身各有特色,如有的评价指标稳定性较好,但敏感性较差;另一些评价指标则反之。如何得到综合特性最优的评价指标,从而对搜索引擎的检索质量进行准确、全面、令人信服的评价,是信息检索领域面临的一个重要的难题,为此,需要准确、可靠的评估方法。本文提出了基于t检验的评估方法,同时使用该方法对文档二值相关和多值相关两种情形下的五种常用评价指标进行了实验研究,它们是MAP(mean average preecision,平均查准率)、P@10(precision at10 document level,前10个文档的查准率)、RP(recall-level precision,可查全水平查准率)、RR(reciprocal ranking,第一位相关文档的倒数)、NDCG(normalized discounted cumulative gain,规范化带减量的累积增长)。研究结果表明,两种情形下评价指标NDCG的综合特性都是最好的,其次是MAP,然后是RP和P@10,综合特性最差的评价指标都是RR。此外,本文还提出了评价指标困难度指数的概念,它可以有效地帮助评价人员对使用不同评价指标得到的不同搜索引擎之间的检索质量进行快速地比较,研究结果表明,评价指标RR的困难度指数最小,其次是NDCG、P@10、RP,困难度指数最大的评价指标是MAP。 通过本文的研究和讨论,基于t检验的评估方法可以作为评估搜索引擎评价指标综合特性的有效方法。它使得计算过程更简单、结果更可靠,并且可以量化比较的结果。该方法不仅能应用于在文档二值相关的情形下的评价指标,也能应用于文档多值相关的情形下的评价指标。另外,困难度指数概念的提出可以帮助信息检索评价人员节省大量的评价时间,提高评价的效率。