论文部分内容阅读
在信息资源呈爆发式增长的二十一世纪,浩瀚的网络资源给用户提供了丰富多样的上网体验。但是,对不同的用户来说,要从如此多而杂的网络资源中高效找到能满足自己需求的信息,就变得越来越困难;对信息服务者来说,如何准确且快速地获取所需信息,是其不断努力的方向。搜索引擎作为用户获取相关信息的重要工具,能帮助用户快速定位到互联网资源,并能直接返回与其信息需求相关的文档。但是,当前的搜索引擎的搜索模式大都是基于关键字匹配的,加之用户向搜索引擎输入的简短查询存在模糊性和歧义性,使得用户的查询意图在搜索引擎中不能被有效地识别。为了有效识别用户的查询意图,现有的相关工作主要包含如何构建分类体系以及如何在给定分类体系下进行查询意图分类。本文基于搜索引擎查询日志信息,对Broder分类体系进行了细化,并着重研究分类特征的分类性能。首先,考虑到搜索引擎中呈现的查询信息特点,对Broder关于用户查询意图分类体系中太泛化的信息类和事务类进行了细分与重新定义,利用K-means聚类,获得了新的查询意图分类体系包括:导航类、咨询类、资源类、服务类、热点类。其次,为了从用户搜索行为中推断出用户查询意图,本文选取了查询词信息(Qi)、点击URL信息(Cu)和URL点击排行(Cr)作为查询意图分类特征,并根据这三类特征所构成的特征向量来判断用户查询具体属于分类体系中的哪一个类别。鉴于用户查询数据自身的特点,采用SVM分类器LIBSVM,利用提取的三类特征对训练数据集进行训练获得SVM分类模型。最后,由于各类分布的不均匀性,在采用信息检索领域常用的准确率和召回率指标对查询意图的分类效果进行评价的同时,为了使评价结果更加客观,增加了评价指标F值。在实验中,主要对本文提出方法的整体分类效果进行分析,另外还探讨了单层面的特征对分类效果的影响。在利用测试集数据验证分类效果的评估实验中,取得了较高的准确率和召回率,且F值均大于0.8,说明本文方法在识别用户查询意图方面具有可行性。