论文部分内容阅读
正确理解用户查询的搜索意图可以提供更加准确、个性化的搜索服务,提高搜索引擎搜索结果质量,改善用户搜索体验。查询理解是目前信息检索领域重点研究问题之一。为了正确的理解用户查询,查询纠错技术作为基本的查询理解技术一直被搜索引擎广泛应用,而查询多意图挖掘则进一步为搜索引擎对用户多种需求的深入理解提供了基础。本文从中文搜索引擎查询纠错和查询多意图挖掘两个方面进行了查询理解的相关研究,论文主要贡献包括: (1)提出了面向中文搜索引擎混合语言的查询纠错方法,可支持混合语言和多种错误类型,与商业搜索引擎对比准确率提升17.19%。由于中文搜索引擎的查询中包含汉字、英文、拼音、数字等多种语言形式,现有的查询纠错方法不能很好的解决查询的切分纠错问题和候选集分类问题。为了解决上述问题,针对中文搜索引擎中用户查询的混合语言特点,我们采用了面向混合语言的异构字符树词典和基于高频或高点击率用户查询日志构建的语言模型;在查询纠错的过程中,对用户的查询进行逐字编辑、同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分和纠错的目的;最终基于多重特征候选集分类器对纠错结果候选集进行分类,仅输出符合判定条件的候选。基于某商业搜索引擎查询日志中随机采样的查询进行纠错实验的结果表明,面向中文搜索引擎混合语言的查询纠错方法的精确率达到了98.97%,正确率达到了87.78%,对比百度搜索引擎线上查询纠错,分别高0.26%和17.19%;召回率为65.29%,比百度搜索引擎线上查询纠错低4.13%,召回率略低的主要原因是实验获取的训练语料不足。上述实验结果充分证明了本方法的有效性。 (2)提出了基于查询图信息的PLSI模型,和已有方法相比在多意图查询的相似性质量指标上有显著改进。现有方法没有有效的利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图,故而获取的查询特征对于多意图查询不同意图下的相关查询区分度不足,对于多意图查询的相关查询聚类效果不佳。针对这一问题,该模型从查询文本特征、点击行为和session信息多个层次来模拟查询意图的产生和表现,并基于查询-单词共现现象和查询-查询共现现象构建模型,获取查询在不同意图上的概率分布。实验证明,利用基于查询图信息的PLSI模型获得的查询特征进行查询意图概率分布相似度计算的效果,远好于基于文本特征的cosine相似度计算方法和random-walk算法;其计算所得的相似度质量指标H(s)(Sim),相比于PLSI模型学习所得的查询特征低25.12%,比LapPLSI模型学习所得的查询特征低34.65%。 (3)提出并实现了基于查询意图概率分布的查询多意图挖掘方法和系统。在基于查询图信息的PLSI模型的基础上,本文提出了基于查询意图概率分布的查询多意图挖掘方法,并设计实现了基于查询意图概率分布的查询多意图挖掘系统,由相关查询获得及预处理模块、查询意图概率分布学习模块和聚类模块组成。该系统采用基于查询图信息的PLSI模型学习所得的查询特征,利用查询意图概率分布相似度计算方法计算查询之间的距离,进行多意图查询的相关查询的聚类,从而挖掘出多意图查询的不同搜索意图下的子群簇。实验结果表明,利用基于查询图信息的PLSI模型学习所得的查询特征进行k-means聚类或complete-link聚类时,其聚类结果的纯度和NMI值均高于PLSI模型和LapPLSI模型,验证了基于查询图信息的PLSI模型在查询多意图挖掘中的有效性和优越性。