论文部分内容阅读
摘要:在网络信息搜索过程中,搜索者输入查询内容到搜索系统中,从系统中获得结果列表并评估搜索结果,在这个过程中,他们可能会修改或重新制定先前的查询直到实现他们想要的目的。通过搜索日志分析,可以发现用户经常修改或重新制定他们的查询。Ozmutlu发现约28%的查询都是之前查询的重构型; Jansen [4]等的研究表明当忽略重复查询时,约37%的查询都是重构查询。
关键词:网络信息;查询重构;背景研究
1.研究背景
网络信息搜索已成为人们日常最普及的互联网活动之一,人们通过网络搜索的方式了解自己所期望的信息。但是, 由于各类网络信息的大量涌现, 使得网络环境变得日益复杂, 信息搜索的效率随之受到较大影响。对此, 许多研究者正试图探索网络信息搜索的特征和规律,以期研究出更有效的搜索工具、信息组织、反馈和提示方式[1]。Strohmaier等[2]研究发现,用户向检索系统表达信息需求的主要方式是不断重构查询,用户重构的相关查询是用户意图的直接表达,而查询重构是识别查询意图的一种重要途径。
任务类型对用户的查询重构行为有显著作用。Chang Liu等[3]将任务划分为简单任务、分层任务和平行任务,探讨三种不同任务类型下查询重构行为特点。研究发现,一般情况下,简单的任务包含最小数量的查询重构,分层任务较多,并行任务包含数量最多的查询重构。这可以由任务需要的信息的数量来解释一部分,在简单的任务时,用户被要求找到一条信息,而在其它两种类型的任务,用户需要找到多条信息。因此,用户必须发出更多的分层和并行任务的详细查询。
在网络信息搜索过程中,搜索者输入查询内容到搜索系统中,从系统中获得结果列表并评估搜索结果,在这个过程中,他们可能会修改或重新制定先前的查询直到实现他们想要的目的。通过搜索日志分析,可以发现用户经常修改或重新制定他们的查询。Ozmutlu发现约28%的查询都是之前查询的重构型; Jansen [4]等的研究表明当忽略重复查询时,约37%的查询都是重构查询。
1.1查询重构原因
查询重构是用户与含有用信息的系统之间的反复过程。Fidel观察到,在以下三种情况下,用户会为提高查询性能对查询做出重构:1)检索集合过大 2)检索集合太小3)检索集合偏离目标。Hsieh—Yee分析了以下三种情况下用户搜索的策略:1)在检索初期时;2)当被检索的项目太多时;3)当无可用信息被检索出来时。研究发现,对于查询重构,当太多项目被检索出来时在第一个查询上添加词汇,用更具体的词汇或者尝试另一个不同的搜索词汇是主要的策略。当没有相关信息被检索到时的主要策略是使用其他词语、用其他搜索引擎或者求助他人。可见,查询重构类型使用与应用情境有关。Chang Liu等[3]将查询重构定义为是在用户与一个能在其中找到能够满足他们搜索目标的系统之间反复的过程。不过对查询重构的概念到目前为止还没有明确的定义,可以肯定的是,查询重构是指修改原始的查询方式,以更好匹配相关文档的词汇,最终提高搜索效率的网络搜索行为[5]。
1.2查询重构与查询意图研究
Strohmaier[2]等研究发现,用户向检索系统表达信息需求的主要方式是进行不断的重构查询,用户重构的相关查询是用户意图的直接表达,则查询重构是识别查询意图一个重要途径。目前几乎没有将查询重构行为信息应用到查询意图识别的相关研究,而当前查询重构行为信息主要应用在查询推荐中,如Shi等提出了一种基于关联规则的模型来挖掘与原查询相关的查询重构,以此生成候选查询;Jones等利用根据查询重构与原查询共现信息,利用互信息度量查询间相似性,以此生成候选查询;张晓娟等[6]基于AOL查询日志数据集,在不给定查询意图类目体系情况下,尝试利用查询重构来识别用户查询意图。
2.查询重构类型划分
Fidel用两种策略进行查询重构分类:操作行为和概念行为。Rieh, S(2006)等扩展了的Fidel的分类,并确定查询重构的三个方面:内容,格式和资源;并分为四个子面:专指化,泛化,替换同义词,和平行查询。这样的分析为人们提供了一个关于如何重构查询的全面描述,但这些分类很难实现自动应用算法。
基于Excite 搜索日志,Lau, T.開发的一种方法自动分类查询四个交互式高级类型。基于查询的内容、查询的长度的变化(忽略相同查询)的这些情况,在一种任务类型下的搜索任务包括:一般化,新颖型,重构型和专指化。Huang等开发了一个广泛的分类系统,由此他们确定了12种查询重构类型。除了Lau等 确认的三种类型:移除词汇(同一般化),添加词汇(同特殊化)之外,他们还发现其他类型包括文字重排,添加字,缩略式等等。所有的这些分析都将在服务器终端进行分析,而我们的研究应用在可控实验的客户端捕捉他们查询重构的方式, 参照他们探究查询重构的方法,通过记录用户的搜索过程,识别查询类型,允许我们能够在有限的时间内分析搜索过程的大量样本。由此我们根据在两个连续查询中常用的词汇和查询长度的不同确定了五个重构类型。5个重构类型的分类见表1。
2.1任务类型划分
三种类型的任务是根据用户对信息的需要结构而设计得出的。
1 )事实发现型(fact-finding以下简称FF),信息需求是由一个单一的或定义的,独立的资料片;
2 )信息采集型(information-gathering以下简称IG),信息需求是由同一层次多个独立的概念组成,需要对信息的收集和处理;这是一个广度的搜索;
3 )决策型(decision-making以下简称DM),需要用户搜索某一主题知识的多层次多角度信息,答案的给出需要用户的判断。
3.研究意义
本研究的目的是探讨用户完成不同搜索任务时,查询重构类型的使用情况。其影响因素主要包括任务类型和用户对以前的搜索结果的满意度。我们研究了这些相关因素对每个查询重构类型的使用及其有效性的影响。这项研究的结果有助于理解不同查询重构类型的使用情境及效用,对查询系统改善查询建议有很大的促进作用。 参考文献:
[1] 朱明泉,张智君,任衍具. 互联网信息搜索用户行为模型的探索性研究[J].浙江大學学报(理学版),2006,04:475-480.
[2] Strohmaier M,Lux M,Granitzer M. How do Users Express Goals on the web?—An Ewploration of International Structures in Web Search[C].In: Proceedings of the 2007 International Conference on Web Information Systems Engineering (WISE’07).Berlin, Heidelberg: Springer-Verlag, 2007:67—78.
[3] Chang Liu. Analysis and Evaluation of Query Reformulations in Different Task Types[J]. Proceedings of the American Society for Information Science and Technology,2001,47(1):1-9
[4] Jansen,B.J.,Spink,A.,Blakely,C.,&Koshman,S.(2007).Defining a session on Web search engines: Research Articles. Journal of the American Society for Information Science and Technology,58(6),862-871.
[5] Xiaobing Xue,W.Bruce Croft. Modeling Reformulation Using Query Distributions [J]. ACM Transactions on Information Systems (TOIS),2013,31(2)
[6]张晓娟,陆伟. 利用查询重构识别查询意图[J]. 现代图书情报技术,2013,01:8-14.
本文系:2021年度大庆市哲学社会科学规划青年研究项目 “技术驱动背景下公共图书馆智慧服务研究”阶段性成果之一
关键词:网络信息;查询重构;背景研究
1.研究背景
网络信息搜索已成为人们日常最普及的互联网活动之一,人们通过网络搜索的方式了解自己所期望的信息。但是, 由于各类网络信息的大量涌现, 使得网络环境变得日益复杂, 信息搜索的效率随之受到较大影响。对此, 许多研究者正试图探索网络信息搜索的特征和规律,以期研究出更有效的搜索工具、信息组织、反馈和提示方式[1]。Strohmaier等[2]研究发现,用户向检索系统表达信息需求的主要方式是不断重构查询,用户重构的相关查询是用户意图的直接表达,而查询重构是识别查询意图的一种重要途径。
任务类型对用户的查询重构行为有显著作用。Chang Liu等[3]将任务划分为简单任务、分层任务和平行任务,探讨三种不同任务类型下查询重构行为特点。研究发现,一般情况下,简单的任务包含最小数量的查询重构,分层任务较多,并行任务包含数量最多的查询重构。这可以由任务需要的信息的数量来解释一部分,在简单的任务时,用户被要求找到一条信息,而在其它两种类型的任务,用户需要找到多条信息。因此,用户必须发出更多的分层和并行任务的详细查询。
在网络信息搜索过程中,搜索者输入查询内容到搜索系统中,从系统中获得结果列表并评估搜索结果,在这个过程中,他们可能会修改或重新制定先前的查询直到实现他们想要的目的。通过搜索日志分析,可以发现用户经常修改或重新制定他们的查询。Ozmutlu发现约28%的查询都是之前查询的重构型; Jansen [4]等的研究表明当忽略重复查询时,约37%的查询都是重构查询。
1.1查询重构原因
查询重构是用户与含有用信息的系统之间的反复过程。Fidel观察到,在以下三种情况下,用户会为提高查询性能对查询做出重构:1)检索集合过大 2)检索集合太小3)检索集合偏离目标。Hsieh—Yee分析了以下三种情况下用户搜索的策略:1)在检索初期时;2)当被检索的项目太多时;3)当无可用信息被检索出来时。研究发现,对于查询重构,当太多项目被检索出来时在第一个查询上添加词汇,用更具体的词汇或者尝试另一个不同的搜索词汇是主要的策略。当没有相关信息被检索到时的主要策略是使用其他词语、用其他搜索引擎或者求助他人。可见,查询重构类型使用与应用情境有关。Chang Liu等[3]将查询重构定义为是在用户与一个能在其中找到能够满足他们搜索目标的系统之间反复的过程。不过对查询重构的概念到目前为止还没有明确的定义,可以肯定的是,查询重构是指修改原始的查询方式,以更好匹配相关文档的词汇,最终提高搜索效率的网络搜索行为[5]。
1.2查询重构与查询意图研究
Strohmaier[2]等研究发现,用户向检索系统表达信息需求的主要方式是进行不断的重构查询,用户重构的相关查询是用户意图的直接表达,则查询重构是识别查询意图一个重要途径。目前几乎没有将查询重构行为信息应用到查询意图识别的相关研究,而当前查询重构行为信息主要应用在查询推荐中,如Shi等提出了一种基于关联规则的模型来挖掘与原查询相关的查询重构,以此生成候选查询;Jones等利用根据查询重构与原查询共现信息,利用互信息度量查询间相似性,以此生成候选查询;张晓娟等[6]基于AOL查询日志数据集,在不给定查询意图类目体系情况下,尝试利用查询重构来识别用户查询意图。
2.查询重构类型划分
Fidel用两种策略进行查询重构分类:操作行为和概念行为。Rieh, S(2006)等扩展了的Fidel的分类,并确定查询重构的三个方面:内容,格式和资源;并分为四个子面:专指化,泛化,替换同义词,和平行查询。这样的分析为人们提供了一个关于如何重构查询的全面描述,但这些分类很难实现自动应用算法。
基于Excite 搜索日志,Lau, T.開发的一种方法自动分类查询四个交互式高级类型。基于查询的内容、查询的长度的变化(忽略相同查询)的这些情况,在一种任务类型下的搜索任务包括:一般化,新颖型,重构型和专指化。Huang等开发了一个广泛的分类系统,由此他们确定了12种查询重构类型。除了Lau等 确认的三种类型:移除词汇(同一般化),添加词汇(同特殊化)之外,他们还发现其他类型包括文字重排,添加字,缩略式等等。所有的这些分析都将在服务器终端进行分析,而我们的研究应用在可控实验的客户端捕捉他们查询重构的方式, 参照他们探究查询重构的方法,通过记录用户的搜索过程,识别查询类型,允许我们能够在有限的时间内分析搜索过程的大量样本。由此我们根据在两个连续查询中常用的词汇和查询长度的不同确定了五个重构类型。5个重构类型的分类见表1。
2.1任务类型划分
三种类型的任务是根据用户对信息的需要结构而设计得出的。
1 )事实发现型(fact-finding以下简称FF),信息需求是由一个单一的或定义的,独立的资料片;
2 )信息采集型(information-gathering以下简称IG),信息需求是由同一层次多个独立的概念组成,需要对信息的收集和处理;这是一个广度的搜索;
3 )决策型(decision-making以下简称DM),需要用户搜索某一主题知识的多层次多角度信息,答案的给出需要用户的判断。
3.研究意义
本研究的目的是探讨用户完成不同搜索任务时,查询重构类型的使用情况。其影响因素主要包括任务类型和用户对以前的搜索结果的满意度。我们研究了这些相关因素对每个查询重构类型的使用及其有效性的影响。这项研究的结果有助于理解不同查询重构类型的使用情境及效用,对查询系统改善查询建议有很大的促进作用。 参考文献:
[1] 朱明泉,张智君,任衍具. 互联网信息搜索用户行为模型的探索性研究[J].浙江大學学报(理学版),2006,04:475-480.
[2] Strohmaier M,Lux M,Granitzer M. How do Users Express Goals on the web?—An Ewploration of International Structures in Web Search[C].In: Proceedings of the 2007 International Conference on Web Information Systems Engineering (WISE’07).Berlin, Heidelberg: Springer-Verlag, 2007:67—78.
[3] Chang Liu. Analysis and Evaluation of Query Reformulations in Different Task Types[J]. Proceedings of the American Society for Information Science and Technology,2001,47(1):1-9
[4] Jansen,B.J.,Spink,A.,Blakely,C.,&Koshman,S.(2007).Defining a session on Web search engines: Research Articles. Journal of the American Society for Information Science and Technology,58(6),862-871.
[5] Xiaobing Xue,W.Bruce Croft. Modeling Reformulation Using Query Distributions [J]. ACM Transactions on Information Systems (TOIS),2013,31(2)
[6]张晓娟,陆伟. 利用查询重构识别查询意图[J]. 现代图书情报技术,2013,01:8-14.
本文系:2021年度大庆市哲学社会科学规划青年研究项目 “技术驱动背景下公共图书馆智慧服务研究”阶段性成果之一