论文部分内容阅读
随着互联网的飞速发展,作为网络信息查询最有效工具的搜索引擎越来越重要。理想的搜索引擎应该按照网页质量(page quality)把搜索结果推荐给用户,然而网页质量是一个难以操纵的概念,于是搜索引擎只能使用网页流行度(pagepopularity)的概念进行近似。然而,网页流行度需要一个成长过程,对于一个新页面,它的流行度是从无到有慢慢成长,经过一个累积过程,直到该页面成熟后其流行度才与自身质量趋于一致。这种成长过程随着搜索引擎使用的普及变得越来越漫长。互联网用户使用搜索引擎查询信息时,动辄就是成千上万的返回结果。由于用户通常只关注排名靠前的结果,这就加剧了对新页面的不公平:处于成长期的新页面由于Popularity不够高而排名靠后,于是得不到应有的关注;由于得不到应有的关注,进而使得其成长周期变得更长。
如果说搜索引擎使用Page popularity进行推荐排名对于成熟网页还算公平的话,那么对于新网页的处理则严重损害了搜索引擎信息推荐的公平性。为了解决这个问题,本文探讨对新页面进行某种程度的“补偿性推荐”,作为搜索引擎使用Page-popularity排名技术的补充。本文从观察研究新页面的出现特点、成长规律出发,对搜索引擎查询结果中新页面的推荐比例、被推荐页面的选择方案、返回结果的展示方法等问题进行了探讨,提出了一种依据新页面的相对排名进行概率推荐的方案。为了验证这种推荐方案的效果,我们参考商业搜索引擎的模式和Web页面的演变规律搭建了一个模拟搜索系统,在这个系统中实现了我们的推荐技术,并对各种情况下的用户使用情况进行了统计和分析。实验结果表明,我们的推荐方案不仅使新页面有更多机会被用户及时认知,有效促进了新页面的成长,同时也为用户提供了更多有价值的查询结果,提高了用户满意度。