论文部分内容阅读
近年来,搜索引擎已经成为Web用户主要的信息检索工具。但因为用户的查询词往往较短并且包含歧义,有效的理解用户的信息需求仍然是一个未解决的问题。上下文感知搜索技术是一种新颖的改进现有搜索技术的途径。这里的上下文特指查询会话上下文。这种技术基于一个普遍的现象:同一查询会话内的查询词和点击记录往往具有很强的关联关系。本文对于利用查询会话上下文来帮助理解用户信息需求的问题进行了系统的研究,其研究成果可以广泛用于改进各种搜索服务。首先,本文提出了一种新的上下文感知的查询建议方法。查询建议在改善搜索引擎可用性上扮演着重要角色。尽管近年来对查询建议的研究较多,但这些方法都不是上下文感知的。也就是说,它们都没有考虑把刚刚提交的一些查询词作为上下文。本文提出的方法包含两个步骤。在离线步骤中,为了解决数据系稀疏性的问题,通过查询词聚类,查询词被归纳为查询概念。接着,该方法从查询会话数据中建立一棵查询概念序列后缀树。这就是离线的查询建议模型。在在线步骤中,通过将查询词序列映射为查询概念序列,该方法可以捕获用户的查询上下文。通过在查询概念序列后缀树中寻找映射得到的查询概念序列,该方法提供给用户上下文感知的查询建议。本文在一个包含18亿查询词,26亿点击记录和8.4亿查询会话的大规模搜索引擎日志上测试了该方法。结果表明这种新方法在覆盖率和查询建议的质量上都好于两种基准方法。其次,本文提出了一种上下文感知的查询词分类方法。Web查询词分类目前已经被广泛研究。先前大多数算法只对单个的查询词进行分类而不考虑查询上下文。但是,由于查询词通常很短并有歧义,在不给定上下文信息的情况下,其真实搜索意图是不确定的。本文利用条件随机场(CRF)模型把上下文信息引入查询词分类问题当中。本文还在真实数据上作了全面的实验来验证此方法的效率和效果。实验结果显示此方法在F1评分下性能比现有的基准方法提高了52%。最后,本文提出了一种上下文感知的网页排序方法。网页排序是搜索引擎的核心技术之一。上下文感知的排序可能显著的改进网页排序。为了捕获查询上下文,本文从查询会话数据中学习出一个可变长度的隐马尔科夫模型。尽管该数学模型非常直观,而且涉及的算法均已被广泛研究,但在如此大规模的搜索日志数据上进行训练仍然带来了很多新的挑战。本文提出了一种可变长度隐马尔科夫模型的参数初始化方法,可以大大减少需要学习的参数数量。本文还在map-reduce分布式计算框架下提出了模型的分布式学习算法。该方法在一个真实搜索引擎上进行了实验。实验结果表明这种方法具有较好的效果和较高的效率。