论文部分内容阅读
随着搜索引擎用户量大规模的增长,对于搜索引擎服务质量和性能提出了挑战。基于用户搜索行为过程中产生的大量搜索日志,相继展开了优化搜索引擎的多方向研究。其中,查询推荐是其研究的一个重要方向,查询推荐是根据用户已有的输入查询,由后台查询推荐系统自动构建多个与用户查询意图相关的查询串供用户自主选择。它是方便用户构建合适查询,提高搜索引擎执行效率的一种有效方法。结合查询串在查询日志中的热度信息和查询串中包含的各命名实体信息提出了一种基于查询热度和命名实体信息的有效查询推荐方法,查询串的热度信息有效反映了该查询串相关主题目前的流行度,查询串中出现的命名实体由于在相对短小的查询串中蕴含着大量的信息,它对于查询推荐串和输入串相关性有着重要的支持作用。查询推荐方法的研究从三个方面展开,具体研究的方法和内容如下: 首先,对查询日志中的各查询串热度进行了评估和分析。融合K-means聚类中心迭代优点和查询词向量长度信息的基础上,提出SKHC(类K-means层次聚类)方法,并以该方法对搜索日志聚类。然后,分析聚类后的查询用户数、查询频次、查询累计时间、查询数、统计量特征与热点查询的关系,提出了基于各类热度值进行热点查询内容评估的方法,同时融合了日热度值和倒排日志频率统计特征。通过对抽取出的结果进行统计分析,并和日志所在月份发生的热点事件进行相关性比较,发现四川地震和北京奥运月平均热度分别达到最高的0.89和0.81,证明了该方法的有效性。 其次,对查询串中的命名实体进行了识别。利用种子命名实体和模板匹配原则抽取候选命名实体并聚类,聚类后进行候选命名实体识别特征抽取,包括频次,不同模板数,模板权重特征。融合这些特征构造命名实体识别权重计算公式,并合理调整特征影响参数,提出了依据特征权重抽取命名实体的新方法。通过计算该方法抽取结果指标P@N值,并和其它方法抽取结果指标进行比较,表明了该方法的有效性。 最后,对查询热度信息和查询串中的命名实体如何融合应用于查询推荐进行了分析。融合查询串热度信息和命名实体提出了一种新的查询推荐方法,该方法在相似度计算上利用了识别出的命名实体,同时考虑了推荐串在全局日志中的热度,将它们作为推荐串权重计算的一维特征融入到推荐串权重评估公式中,提高了推荐词的总体质量。将推荐结果和BaseLine方法的推荐结果进行人工满意度评价,表明了该方法的有效性。