论文部分内容阅读
随着互联网的快速发展,搜索已成为当前最重要的网络基础应用之一。但是,目前的搜索结果并不能让人足够满意。对搜索引擎来说,如何通过用户提交的查询关键字,返回满足用户需求的搜索结果,是判断搜索性能的关键指标。目前搜索引擎公司和研究人员通过多种方式试图理解用户的搜索目的,生成查询推荐是满足用户意图中很重要的一环。在实际应用中,查询推荐表现为搜索引擎提供的“相关搜索”。传统的生成查询推荐的方法主要通过语义分析、文档内容分析、锚文本研究来产生推荐;近期的方法主要是通过挖掘搜索日志来生成查询推荐。一是利用在同一个session中邻近的或同时发生的查询作为彼此的推荐。这种方法能够有效的提供有意义的查询推荐,但仅考察用户刚提交的查询,没有充分的考虑上下文序列。另一种是上下文相关方法,通过预测后缀树模型来生成查询推荐,但在查询session划分方面存在粒度过大的问题。提高查询推荐的准确性可以提升用户的搜索体验,在个性化搜索、提高用户忠诚度、精准广告投放等方面有很广应用前景。本文具体做了以下方面的工作:1. Session划分研究。为了生成查询推荐,首先需要对搜索日志中的session进行划分。有两个问题需要解决:一是选取划分方法,这决定了如何自动划分session。本文根据对所采用的搜索日志进行分析,采用了一种时间间隔法。二是在同一个session中,如何利用已经提交的查询,对用户的下一个查询进行判断和预测。2.改进序列生成模型。VMM模型是N-gram算法的扩展,考虑了用户的上下文信息,也能很好的解决可变长的上下文输入问题。但在VMM模型的建立过程中,预测后缀树的生长率参数ε要根据经验得到。ε值过大,就会丢失上下文信息;ε值过小,就会出现训练集数据过分拟合。本文通过训练多个不同边界的VMM模型,建立了扩展的VMM模型——EVMM。得到更准确的ε值,解决了上下文信息丢失和训练集数据过分拟合的问题。3.实验验证。生成查询推荐分为训练和测试两步。在训练阶段,对搜索日志的session做出准确的划分,然后生成扩展的序列查询预测模型;在测试阶段,根据输入的序列得到概率最大的前N个查询推荐。本文改进了查询推荐算法,并在搜索日志上进行比较和实验验证。结果表明,本算法能很好的从搜索日志中建立推荐模型,在测试集中具有更好的准确度和覆盖率,并具有较低的时间和空间复杂度。