论文部分内容阅读
搜索引擎是用户从互联网海量数据中获取所需资源信息的主要途径之一。随着互联网数据规模急速膨胀,用户对于高效便捷获取资源信息的要求越来越高,搜索引擎需要不断地进行系统优化从而为用户提供更优质的搜索服务,因此,如何有效评估搜索引擎的质量成为了研究界与产业界关注的焦点。搜索满意度是一种以用户为核心、强调用户搜索体验的搜索引擎质量评估指标。搜索引擎日志记录了用户与搜索引擎交互过程中发生的一系列行为信息(如提交查询词、移动鼠标、点击结果等),并且搜索满意度与用户的搜索行为有很强的关联。因此,研究人员提出利用搜索行为来评估用户的搜索满意度。本文针对如何有效利用搜索行为序列中的时间间隔信息、如何有效利用鼠标光标移动的轨迹、如何在少量有标注数据的情况下训练出有效的搜索满意度评估模型三个挑战对基于搜索引擎日志挖掘的搜索满意度评估方法进行深入研究,主要内容有:1)提出了一种基于长短时记忆循环神经网络的搜索满意度评估方法。利用长短时记忆循环神经网络对搜索行为序列进行建模,实现端对端的学习,并引入虚拟停留行为来表示搜索行为序列中的变长时间;引入一种基于停留时间扰动的数据增强策略来增加搜索行为序列的模式变化,从而提高搜索满意度评估模型的泛化能力。实验结果表明与一些优秀的搜索满意度评估方法相比,基于长短时记忆循环神经网络的搜索满意度评估方法有显著的性能提升;2)提出了一种用于搜索满意度评估的区域行为长短时记忆循环神经网络。首先利用区域和行为从搜索引擎日志中提取鼠标交互序列;引入区域门和行为门分别对鼠标交互序列中的区域信息和行为信息建模,使得网络在捕获区域和行为之间交互关系的同时不会遭受更高训练复杂度的影响;引入一种多因子扰动的数据增强策略来增加鼠标交互序列的模式变化。实验结果表明用于搜索满意度评估的区域行为长短时记忆循环神经网络在不同的搜索环境中都实现了比最先进的搜索满意度评估方法更好的性能;3)提出了一种基于多视图半监督学习的搜索满意度评估方法。通过半监督学习的方法利用少量有标注数据和大量无标注数据来提高搜索满意度评估方法的性能,在此基础上,结合多视图学习的思想来克服传统的基于单视图的半监督学习方法容易陷入局部最优的问题,并利用不同参数配置的策略让基分类器之间有足够的分歧,从而缓解多视图半监督学习方法对于视图充分冗余的要求。实验结果展示了基于多视图半监督学习的搜索满意度评估方法相对最先进的基于半监督学习的搜索满意度评估方法的优势;4)提出了一种融合多视图半监督学习和多视图主动学习的搜索满意度评估方法。半监督学习部分利用无标注数据提高了主动学习部分中所使用的分类器的准确率;主动学习部分阶段性地使用给定的人工标注成本,在利用一种局部密度度量来衡量每个候选标注数据的代表性的同时,结合多视图的思想来衡量每个候选标注数据的信息量,从而挑选出最具代表性和最富信息量的数据给标注人员标注,为半监督学习部分提供更高质量的有标注数据集。实验结果表明在用户满意度评估的问题上,半监督学习与主动学习相结合能够实现比单独使用更好的性能。