查询重构研究背景及类型

来源 :科技信息·学术版 | 被引量 : 0次 | 上传用户:junlintianxiap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在网络信息搜索过程中,搜索者输入查询内容到搜索系统中,从系统中获得结果列表并评估搜索结果,在这个过程中,他们可能会修改或重新制定先前的查询直到实现他们想要的目的。通过搜索日志分析,可以发现用户经常修改或重新制定他们的查询。Ozmutlu发现约28%的查询都是之前查询的重构型; Jansen [4]等的研究表明当忽略重复查询时,约37%的查询都是重构查询。
  关键词:网络信息;查询重构;背景研究
  1.研究背景
  网络信息搜索已成为人们日常最普及的互联网活动之一,人们通过网络搜索的方式了解自己所期望的信息。但是, 由于各类网络信息的大量涌现, 使得网络环境变得日益复杂, 信息搜索的效率随之受到较大影响。对此, 许多研究者正试图探索网络信息搜索的特征和规律,以期研究出更有效的搜索工具、信息组织、反馈和提示方式[1]。Strohmaier等[2]研究发现,用户向检索系统表达信息需求的主要方式是不断重构查询,用户重构的相关查询是用户意图的直接表达,而查询重构是识别查询意图的一种重要途径。
  任务类型对用户的查询重构行为有显著作用。Chang Liu等[3]将任务划分为简单任务、分层任务和平行任务,探讨三种不同任务类型下查询重构行为特点。研究发现,一般情况下,简单的任务包含最小数量的查询重构,分层任务较多,并行任务包含数量最多的查询重构。这可以由任务需要的信息的数量来解释一部分,在简单的任务时,用户被要求找到一条信息,而在其它两种类型的任务,用户需要找到多条信息。因此,用户必须发出更多的分层和并行任务的详细查询。
  在网络信息搜索过程中,搜索者输入查询内容到搜索系统中,从系统中获得结果列表并评估搜索结果,在这个过程中,他们可能会修改或重新制定先前的查询直到实现他们想要的目的。通过搜索日志分析,可以发现用户经常修改或重新制定他们的查询。Ozmutlu发现约28%的查询都是之前查询的重构型; Jansen [4]等的研究表明当忽略重复查询时,约37%的查询都是重构查询。
  1.1查询重构原因
  查询重构是用户与含有用信息的系统之间的反复过程。Fidel观察到,在以下三种情况下,用户会为提高查询性能对查询做出重构:1)检索集合过大 2)检索集合太小3)检索集合偏离目标。Hsieh—Yee分析了以下三种情况下用户搜索的策略:1)在检索初期时;2)当被检索的项目太多时;3)当无可用信息被检索出来时。研究发现,对于查询重构,当太多项目被检索出来时在第一个查询上添加词汇,用更具体的词汇或者尝试另一个不同的搜索词汇是主要的策略。当没有相关信息被检索到时的主要策略是使用其他词语、用其他搜索引擎或者求助他人。可见,查询重构类型使用与应用情境有关。Chang Liu等[3]将查询重构定义为是在用户与一个能在其中找到能够满足他们搜索目标的系统之间反复的过程。不过对查询重构的概念到目前为止还没有明确的定义,可以肯定的是,查询重构是指修改原始的查询方式,以更好匹配相关文档的词汇,最终提高搜索效率的网络搜索行为[5]。
  1.2查询重构与查询意图研究
  Strohmaier[2]等研究发现,用户向检索系统表达信息需求的主要方式是进行不断的重构查询,用户重构的相关查询是用户意图的直接表达,则查询重构是识别查询意图一个重要途径。目前几乎没有将查询重构行为信息应用到查询意图识别的相关研究,而当前查询重构行为信息主要应用在查询推荐中,如Shi等提出了一种基于关联规则的模型来挖掘与原查询相关的查询重构,以此生成候选查询;Jones等利用根据查询重构与原查询共现信息,利用互信息度量查询间相似性,以此生成候选查询;张晓娟等[6]基于AOL查询日志数据集,在不给定查询意图类目体系情况下,尝试利用查询重构来识别用户查询意图。
  2.查询重构类型划分
  Fidel用两种策略进行查询重构分类:操作行为和概念行为。Rieh, S(2006)等扩展了的Fidel的分类,并确定查询重构的三个方面:内容,格式和资源;并分为四个子面:专指化,泛化,替换同义词,和平行查询。这样的分析为人们提供了一个关于如何重构查询的全面描述,但这些分类很难实现自动应用算法。
  基于Excite 搜索日志,Lau, T.開发的一种方法自动分类查询四个交互式高级类型。基于查询的内容、查询的长度的变化(忽略相同查询)的这些情况,在一种任务类型下的搜索任务包括:一般化,新颖型,重构型和专指化。Huang等开发了一个广泛的分类系统,由此他们确定了12种查询重构类型。除了Lau等 确认的三种类型:移除词汇(同一般化),添加词汇(同特殊化)之外,他们还发现其他类型包括文字重排,添加字,缩略式等等。所有的这些分析都将在服务器终端进行分析,而我们的研究应用在可控实验的客户端捕捉他们查询重构的方式, 参照他们探究查询重构的方法,通过记录用户的搜索过程,识别查询类型,允许我们能够在有限的时间内分析搜索过程的大量样本。由此我们根据在两个连续查询中常用的词汇和查询长度的不同确定了五个重构类型。5个重构类型的分类见表1。
  2.1任务类型划分
  三种类型的任务是根据用户对信息的需要结构而设计得出的。
  1 )事实发现型(fact-finding以下简称FF),信息需求是由一个单一的或定义的,独立的资料片;
  2 )信息采集型(information-gathering以下简称IG),信息需求是由同一层次多个独立的概念组成,需要对信息的收集和处理;这是一个广度的搜索;
  3 )决策型(decision-making以下简称DM),需要用户搜索某一主题知识的多层次多角度信息,答案的给出需要用户的判断。
  3.研究意义
  本研究的目的是探讨用户完成不同搜索任务时,查询重构类型的使用情况。其影响因素主要包括任务类型和用户对以前的搜索结果的满意度。我们研究了这些相关因素对每个查询重构类型的使用及其有效性的影响。这项研究的结果有助于理解不同查询重构类型的使用情境及效用,对查询系统改善查询建议有很大的促进作用。   参考文献:
  [1] 朱明泉,张智君,任衍具. 互联网信息搜索用户行为模型的探索性研究[J].浙江大學学报(理学版),2006,04:475-480.
  [2] Strohmaier M,Lux M,Granitzer M. How do Users Express Goals on the web?—An Ewploration of International Structures in Web Search[C].In: Proceedings of the 2007 International Conference on Web Information Systems Engineering (WISE’07).Berlin, Heidelberg: Springer-Verlag, 2007:67—78.
  [3] Chang Liu. Analysis and Evaluation of Query Reformulations in Different Task Types[J]. Proceedings of the American Society for Information Science and Technology,2001,47(1):1-9
  [4] Jansen,B.J.,Spink,A.,Blakely,C.,&Koshman,S.(2007).Defining a session on Web search engines: Research Articles. Journal of the American Society for Information Science and Technology,58(6),862-871.
  [5] Xiaobing Xue,W.Bruce Croft. Modeling Reformulation Using Query Distributions [J]. ACM Transactions on Information Systems (TOIS),2013,31(2)
  [6]张晓娟,陆伟. 利用查询重构识别查询意图[J]. 现代图书情报技术,2013,01:8-14.
  本文系:2021年度大庆市哲学社会科学规划青年研究项目 “技术驱动背景下公共图书馆智慧服务研究”阶段性成果之一
其他文献
摘要:干细胞分为全能干细胞、多能干细胞、专能干细胞。其中专能干細胞只能在某一特定的组织器官应用中修复一种组织。本次试验,基于骨干细胞治疗骨疾病的应用研究,36只试验兔子构建动物模型。将试验兔分为2组进行试验。其中一个组使用干细胞分泌因子修复液,另一个对照组未使用。结果证明:干细胞分泌因子在相同动物的骨损伤上的应用呈显著差异性,有修复骨细胞功效。通过本次试验说明了干细胞分泌因子在骨修复临床应用上有一
期刊
摘要:2020年6月1日起,公安部开展“一盔一带”(头盔、安全带)安全守护行动,对摩托车、电动自行车骑乘人员不佩戴安全头盔的问题依法查纠。伴随着共享经济的发展,头盔与互联网+结合碰撞,共享头盔随之出现。现就共享经济视角下共享头盔的市场分析与发展前景及其问题进行研究。本文主要是通过实地调研,收集各种类型共享头盔及其相关的的政策等资料,从共享经济的视角下了解共享头盔的发展前景,总结出共享头盔发展过程中
期刊
摘要:通过对多个同电压等级电缆项目施工常见问题和试验结果分析,探讨110kV-220kV高压电缆施工要点和试验要注意的事项,以此提醒施工和试验人员注意。  关键词:缆沟;工井;顶管;电缆头;试验  1概述  本文主要针对近年来我单位自行施工的良村、东区、群湾等电缆项目,施工存在的常见和主要问题进行探讨和分析,主要包括以下三个方面。  (1)土建施工:缆沟、工井、顶管;  (2)电气施工:电缆敷设、
期刊
摘要:电商平台作为连接供应商和商户的核心,可以通过多种方式提供供应链金融服务。但与此同时,各电商企业也面临着各种金融风险。识别与分析风险是风险防控的前提。电商企业供应链金融风险主要包括信用风险、资金风险、市场风险、操作风险等。  关键词:电商企业;供应链金融;金融风险  一、信用风险  信用风险是指债务人或交易方由于各类自身原因信用质量发生变化、未能履行合同所规定的义务,从而给债权人或金融产品持有
期刊
摘要:在智能化技术不断发展的影响之下,越来越多的行业和智能技术融合碰撞,传统生产加工也逐渐迈入机械化领域,为了不断提高生产企业的经济效益,智能机器人逐渐和机械加工设备联系在一起,通过精确检测和数位校正的方式来优化系统的实操,从而满足不同企业中的加工需求,在降低生产成本的基础上提升产品质量。文章系统性地介绍机械制造与智能机器人的概念,结合数控生产的应用优势,详细分析智能机器人在生产加工中的应用。  
期刊
摘要:当前,我国社会已经正式进入到了新常态的发展环境当中。新形势也为信息技术的发展创造了新契机;反过来看,信息技术的优化进步也对多个行业领域产生了比较深刻的影响作用。其中,档案室作为档案资料收集、处理、检索、查阅的关键场所,如果过度依赖于传统的人工档案管理模式,必将不利于其管理质量和管理效率的提升。数字档案室的建设迫在眉睫,通过这种智能化的办公手段提升档案管理工作的质量和效率。为此,文章主义针对数
期刊
摘要:随着国内电子信息技术的快速发展,各种通信信号产品也逐渐应用到我们生活中的每一个领域。通信型信号在铁路运输中的作用是至关重要,铁路通信信号产品的质量直接影响着铁路交通的正常运行,保证通信产品的质量一定要从源头抓起,紧盯生产过程,严格把控产品质量检验。  关键词:全生命周期管理;通信产品;铁路交通;质量  引言:  如今高铁在国内非常多的城市已经有了广泛的应用,加上信息与网络技术的支持铁路通信信
期刊
现在的酒店业越来越重视企业文化的建设,而以人为本是酒店文化的核心内涵,成功的酒店管理也都以人性化的文化管理为其主要特质。酒店文化不仅是酒店在激烈竞争中的制胜法宝,更是酒店特色经营、可持续发展的源泉。在酒店文化建设中,以人为本、以员工为中心、员工第一的经营理念是酒店文化建设中核心任务。  一、酒店文化中的人本内涵  酒店文化是中外宾客在酒店中感受到的文化的总和,是企业文化在酒店行业中的具体表现形式,
期刊
摘要:隨着现代科技的发展进步,各行各业都广泛使用了机电一体化产品,在促进经济发展上起到了重要的作用。机电一体化从广义上说就是在原有机械的基础上,添加自动化技术,计算机技术,微电子技术等,让原有机械的运作更具安全性和高效率性。特对是对于煤炭生产这一危险复杂的过程来说,引入机电一体化产品有利于提高煤矿生产工作的安全性,提高煤炭生产效率,大大减轻煤矿工人的劳动强度。因此,本文将从机电一体化的相关概念出发
期刊
摘要:算法是解决特定问题求解决步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作,像我们想要掌握深层次的计算机学习,我们就必须要了解与学习算法,但是我们只是通过代码的展示,并不能直观形象的体现算法的作用与效果,因此开发设计一款算法可视化[1]的系统是相当重要的。基于以上的背景,我们设计并实现了一个基于 Web 端的算法可视化系统,该系统主要实现了算法的动态可视化功能,其次为
期刊