基于搜索引擎日志的查询意图分类研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:zzhang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息资源呈爆发式增长的二十一世纪,浩瀚的网络资源给用户提供了丰富多样的上网体验。但是,对不同的用户来说,要从如此多而杂的网络资源中高效找到能满足自己需求的信息,就变得越来越困难;对信息服务者来说,如何准确且快速地获取所需信息,是其不断努力的方向。搜索引擎作为用户获取相关信息的重要工具,能帮助用户快速定位到互联网资源,并能直接返回与其信息需求相关的文档。但是,当前的搜索引擎的搜索模式大都是基于关键字匹配的,加之用户向搜索引擎输入的简短查询存在模糊性和歧义性,使得用户的查询意图在搜索引擎中不能被有效地识别。为了有效识别用户的查询意图,现有的相关工作主要包含如何构建分类体系以及如何在给定分类体系下进行查询意图分类。本文基于搜索引擎查询日志信息,对Broder分类体系进行了细化,并着重研究分类特征的分类性能。首先,考虑到搜索引擎中呈现的查询信息特点,对Broder关于用户查询意图分类体系中太泛化的信息类和事务类进行了细分与重新定义,利用K-means聚类,获得了新的查询意图分类体系包括:导航类、咨询类、资源类、服务类、热点类。其次,为了从用户搜索行为中推断出用户查询意图,本文选取了查询词信息(Qi)、点击URL信息(Cu)和URL点击排行(Cr)作为查询意图分类特征,并根据这三类特征所构成的特征向量来判断用户查询具体属于分类体系中的哪一个类别。鉴于用户查询数据自身的特点,采用SVM分类器LIBSVM,利用提取的三类特征对训练数据集进行训练获得SVM分类模型。最后,由于各类分布的不均匀性,在采用信息检索领域常用的准确率和召回率指标对查询意图的分类效果进行评价的同时,为了使评价结果更加客观,增加了评价指标F值。在实验中,主要对本文提出方法的整体分类效果进行分析,另外还探讨了单层面的特征对分类效果的影响。在利用测试集数据验证分类效果的评估实验中,取得了较高的准确率和召回率,且F值均大于0.8,说明本文方法在识别用户查询意图方面具有可行性。
其他文献
目的:通过建立大鼠在体肺脏缺血再灌注损伤模型,研究缺血后处理对大鼠肺缺血再灌注损伤血管内皮影响及其可能的机制。方法:雄性SD大鼠32只,随机分为假手术对照组(Sham组)、缺血
为什么要编一套“部编本”教材(由教育部直接组织编写的教材)?“部编本”语文教材编写有哪些新思考?目前,全国已经有数百万小学生和初中生使用“部编本”语文教材,他们在使用中遇到
期刊
随着新教学思想、教学观念的逐渐树立,新的课程标准孕育而生,指引着我们基层教师更好地进行教学实验与改革。在新课程标准的指导下,小学英语课堂教学发生了从量到质的变化,这
随着信息化进程的发展,以及市场有效需求和竟争环境的变化,企业在进行决策调控时已离不开信息,尤其是随着社会主义市场经济体制的逐步完善,在建筑企业不断深化改革的进程中,
目的:检测贵州部分地区汉族人群糖皮质激素受体基因N363S多态性,探讨该多态性与支气管哮喘(bronchial asthma简称哮喘)发病机制的关系。方法:根据2008年修订的《支气管哮喘防治
[目的]探讨容积二氧化碳(VCap)技术作为支气管激发试验和舒张试验一种新的评估方法的可行性和应用价值并与肺通气测定法做比较。评价容积二氧化碳测定技术与常规肺功能测定技
四旋翼无人机体积小、重量轻、机械结构简单、对工作环境的要求低,四旋翼无人机技术的发展也是当下技术人员的焦点。四旋翼无人机的动力学特性较为复杂,正常工作下也需要多个
贵州屯堡聚落出现于明清卫所制度开设之后,因其地理环境的特殊性至今仍保留着屯军的文化特色。《吉昌契约文书汇编》的整理出版,作为历史研究中可靠的文献材料,为从吉昌屯管
肺栓塞(Pulmonary embolism,PE)是指全身静脉系统内的栓子脱落后堵塞肺血管床而引起呼吸及循环功能障碍的临床综合症。是一种常见病,多发病,是导致西方人类死亡的第三大病因,
<正>随着经济全球化的脚步加快,全球海运飞速发展,世界航运巨鳄抢夺世界资源,航运企业之间的竞争越发激烈。但自金融危机以来,全球经济及国际航运业进入"新常态",即"低俗、低