论文部分内容阅读
摘要:本文提出一种通过获取用户建立和更新信息相关反馈模型的思想。通过观察用户在浏览Web 页面时所采取的动作来获取反馈信息,利用检索算法将用户信息量化,并利用这些信息建立与更新用户模型。一方面用户对检索结果的评价输入到用户模型上,另一方面,检索系统通过学习跟踪用户信息并优化用户模型。
关键词:信息检索 相关性反馈 用户需求
中图分类号:G203 文献标识码:A 文章编号:1674-098X(2012)09(c)-0050-02
当今进入了信息时代,随着网络技术与智能技术不断创新计算机应用环境,网上关键词不能按需要进行扩检、缩检或作相关检索,从而达不到理想的检索效果,目录型网络信息检索分类处理跟不上信息扩张的速度且类目难以统一组织。高质量的信息检索需要用户提供准确的兴趣描述,然而面对今天浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索,以获取真正有用的信息,这样可以节省科研时间,提高工作效率,同时避免重复研究,加快科技创新的速度,充分挖掘分析信息从而制定高明的市场谋略。近年来,各种学者研究出基于各种检索模型下的反馈方法,均已成为当前能够产生实效的新研究课题。
1 相关性反馈概念和原理
信息检索的种类有许多种,但对于任何一种方法,其根本内容都是一样的,即检索项与标引项的匹配问题。对事先组织好的文档,可以按用户提出的检索条件去进行匹配运算,符合条件的即为命中,否则为不命中。检索过程就是对记录的内容再细分的过程,而检索条件就是细分的根据。对于同一个检索题目,可以产生很多种方法,其反映了标引的逆向过程。
如图1所示,用户需要的内容主要通过信息检索来实现,但在检索的过程中存在一些不确定因素从而使该目标无法实现。自然语言的复杂性和模糊性是影响检索系统性能的根源,其中包括文档和查询的表达方式、文档和查询相关性的匹配能力、查询结果的排序和用户进行相关反馈的机制等。
就这种检索系统来说,当前的信息检索工具普遍存在这样的一些问题。
(1)检索比较模糊,精准性不强。用户所需要的文献可能由于计算机系统检索精确性低而不能完全检测到,而不相关和相关度较低的文档则被频繁的检索出来。
(2)检索工具在编制技术上存在问题。比如,只反映参考文献的第一作者,若从第二作者入手查,就无法使用检索工具;同一来源在索引中反复著录多次,浪费了许多篇幅,不经济;同名著者不能区分,同一作者的不同名字不易控制和合并,等等。
(3)无法实现一次性复杂检索。传统的信息检索系统允许多次简单条件进行“二次检索”,即在第一次检索的基础上,根据检索要求,在二次检索框中输入相应的检索词再次进行检索,逐步缩小范围。
与传统的检索方式相比较,基于用户的信息检索具有以下优势:
(1)利用反映用户信息需求的特征来进行检索。
(2)相关反馈检索,即根据检索库中各个被检索单元与用户检索需求的相关程度而二次检索。
传统的信息检索通常是不区分用户所处的社会环境、受教育的程度和个人的能力这些因素而进行检索的,因而大多数用户无法从检索方法、检索策略和检索结果中获取个人的需要。例如,输入“番茄”关键词查询有关番茄的信息,得到的结果中一定含有“番茄”,而“西红柿”、“圣女果”都可以表达相同的概念,却由于词形上的差异不能满足关键词匹配的要求。又比如“航天飞机”和“太空梭”虽然指的概念是一样的,但在中文检索工具上用“航天飞机”是查不到“太空梭”的主页的。显然,相关反馈检索是相当有用的。
在改进的检索系统中用户可以评估文档,并且把信息反馈到检索系统中,另一方面系统通过获取用户感兴趣的领域和用户的检索行为建立用户模型库,并执行一次新的查询。
相关反馈技术能够提供更为智能化、知识化的服务的技术,它可以使检索性能得到很大的提高,在检索过程中,它提供了一个受控查询改变的过程,在强调某些重要的检索词的同时,削弱了另外一些检索词。系统根据用户的查询要求返回检索结果。用户对检索系统进行评价和标记,并将这些信息反馈给系统,将查询操作划分成一个个小的查询过程,以逐渐接近用户想要的目标文档。系统则根据这些信息进行学习,并返回新的查询结果,从而使检索结果更加满足用户的要求。在此过程中系统需要为用户建立模型以用来存储用户的兴趣、检索习惯、用户背景等信息,用户所要做的工作是处理文档所包含的思想和概念。
首先,用户提出一个查询请求,检索系统开始进行原始的查找,检索系统根据用户文档修改用户查询条件,并对用户提问查询进行重新查找;其次,用户罗列出返回的那些内容是关联性大的,然后检索系统会自动的使用其中检索词来进行扩检查询,基于用户相关性来形成新的查询。通过这种用户与相关反馈系统的相互作用不断完善和精确用户的查询请求。同时,相关反馈过程也是一个不断重复的过程。我们要解决的重点是,怎样收集并组织相关文献,怎样优化查询,怎样选定新的检索词,而相关反馈模型检索能比较完善的解决了这个问题。
2 基于用户的相关反馈模型机制
检索系统通过观察用户与系统之间的交互动作获取用户的个人兴趣,从而利用相关反馈来扩展对用户的查询。因而基于用户的相关反馈模型能够根据用户的使用情况,适时调整系统的主题和全局模式,以满足用户的需要,将使系统更加灵活。例如,当全社会掀起创建和谐社会时,对于互帮互助、雷锋精神相关的文献需求量可能会增加;在进行高科技技术学习时,可能对航空航天相关文献的需求又会增加。对于这种需要,虽然事先无法预料,但可以通过对用户检索内容的分布情况的分析来对主题和全局模式进行调整。
2.1 采集用户查询行为信息
在进行采集用户行为信息前要进行需求分析,即明确采集目标。需求分析是整个信息采集的出发点,也是整个信息采集工作效率高低和成败的关键。在采集过程中根据信息采集的需求不同,要采用不同的采集。不同类型、不同内容的用户信息,获取的途径和方法也不一样。用户查询行为的采集应采用调查问卷、启发式采集、现场搜集等方式来获取,例如用户的移动手持设备,方便用户,充分发挥手持设备的优势,利用拍照和录音功能实现用户查询行为信息采集、信息采集的“移动化”、“零手写”。利用河南移动公司的设备定位技术,实现信息采集地点的自动定位,提高信息采集的效率。 采用查全率和查准率来对反馈技术在经过前处理的检索模型和没有经过前处理的模型上的有效进行分析。
查全率=检出相关信息量/系统中相关信息总量×100%
查准率=检出相关信息量/检出信息总量×100%
根据实验结果可以看出基于反馈技术在信息检索模型上是有效的,但是实验结果说明该种方法还需进一步的论证,从而提高查全率和查准率。
经过比较可以得出结论:前处理技术一定程度上提高了相关反馈的查准率,而查全率和未经过处理前的模型差不多。
2.2 用户检索结果的相关度研究
在实际检索中,假设用户检索最终结果的数量超过了一定的条数,或者页码过多,那么用户只能重点浏览前面的检索结果,而对后面的内容漠不关心。因此,就要对检索结果进行相关度排序,把相关度高的结果排在前面,这就要对系统进行设计。其主要思想是对文献的题目、关键词、作者、内容摘要四个位置进行相关度的计算,为每个地方设计一个不同的权重,相关度越高的则权重越高。
相关度的计算方法如下:
假设有检索词k,计算机检索得到的结果集L={l0,l1, …,ln}(n∈N),L中的各个项进行相关度排序。设LKi为k的一个检索结果li,则li∈L。LMi为li用户使用过的次数。则L中的任意两项li,lj存在以下关系:
(1)当仅当LKi=LKj, LMi=LMj,那么li=lj;
(2)如果LKi>LKj,那么li>lj;
(3)如果LKi=LKj, LMi>LMj,那么li>lj。
该算法表示如下:
Void QueryResultCollection::
RankSort()
{ if(—result.Size()<2)
return;
Icompare rankCompare=new RankCompare();
—result.Sort(rankCompare);}
Public class RankCompare:Icompare
{int Icompare::Compare(Object x,Object y)
{Return(QueryResult)x.CompareTo((QueryResult)y);}}
2.3 用户模型的设计
用户兴趣模型的系统结构,以下给出用户感兴趣的主题模型:
设xi为某个主题,集合F={x0,x1,…,xm}为某个主题领域所有主题,有xi∈{x0,x1,…,xm}.
记L(xi)≡1代表一个用户在一次检索中对主题xi感兴趣,∑L(xi)为在时间段t内对主题xi感兴趣的用户的总和。
那么存在集合M={∑L(x0),∑L(x1),…,∑L(xm)},表示在时间段t内,对主题域中的每个主题,对其感兴趣的用户总数的集合M。
在M中可以找到一个集合P,使得P,且对于P中任一元素Pi,都有Pi>Mi,Mi∈(M-P)。
这时,由P中元素对应的主题组成的集合,就是要寻找的主题集合。
对于集合F,如果选择的主题太大,则在集合M中可能存在大量元素的值偏小,这时需要通过系统管理员的人工判断来选择。本系统主要是对一定时间内用户检索内容的分类情况和涉及的主题情况,进行统计来分析检索内容的分布情况。在每个用户检索时,一方面是对其感兴趣的检索结果进行记录,一方面是对其使用的检索词进行匹配,从而得到单个用户一次检索时的兴趣范围,通过对一段时间内所有用户的兴趣范围的累计,得出一个用户兴趣范围的分布情况表,即兴趣模型。
3 结语
当前对相关反馈模型的研究日益深入,它有助于实现个性化的智能检索服务,信息检索是一个涉及自然语言处理各个方面的研究领域,用户反馈模型的引入,可以挖掘用户信息之间的内在联系,检索的结果能准确、系统的反映用户的需求。通过研究新的相关反馈模型机制,拓展信息检索领域的研究内容,推进信息技术的利用水平,主要表现在挖掘用户的潜在兴趣、开辟新的兴趣领域和进行专门的检索服务。信息检索中的相关反馈模型的研究已经成为人们日益关注的一个热点, 是未来检索服务的一个研究方向,基于用户个性化的检索模式将会随着不断完善的功能、不断提高的准确性,为人们获取信息提供更多的便利。但是在其实现过程中,仍旧存在不少困难,如用户兴趣的遗忘、用户兴趣的挖掘、反馈学习机制的优化模型,以及多用户兴趣模型的设计和实现, 这些都还有待进一步改进和解决。
参考文献
[1] 李业丽,林鸿飞,姚天顺.基于事例的用户信息需求模型[J].用户计算机工程与用,2000.
[2] 李广建,黄昆.用户模型及其学习方法[J].现代图书情报技术,2002.
[3] 王志军,于超.基于隐式反馈的个人信息检索技术及实现[J].工程应用技术与实现,2003.
关键词:信息检索 相关性反馈 用户需求
中图分类号:G203 文献标识码:A 文章编号:1674-098X(2012)09(c)-0050-02
当今进入了信息时代,随着网络技术与智能技术不断创新计算机应用环境,网上关键词不能按需要进行扩检、缩检或作相关检索,从而达不到理想的检索效果,目录型网络信息检索分类处理跟不上信息扩张的速度且类目难以统一组织。高质量的信息检索需要用户提供准确的兴趣描述,然而面对今天浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索,以获取真正有用的信息,这样可以节省科研时间,提高工作效率,同时避免重复研究,加快科技创新的速度,充分挖掘分析信息从而制定高明的市场谋略。近年来,各种学者研究出基于各种检索模型下的反馈方法,均已成为当前能够产生实效的新研究课题。
1 相关性反馈概念和原理
信息检索的种类有许多种,但对于任何一种方法,其根本内容都是一样的,即检索项与标引项的匹配问题。对事先组织好的文档,可以按用户提出的检索条件去进行匹配运算,符合条件的即为命中,否则为不命中。检索过程就是对记录的内容再细分的过程,而检索条件就是细分的根据。对于同一个检索题目,可以产生很多种方法,其反映了标引的逆向过程。
如图1所示,用户需要的内容主要通过信息检索来实现,但在检索的过程中存在一些不确定因素从而使该目标无法实现。自然语言的复杂性和模糊性是影响检索系统性能的根源,其中包括文档和查询的表达方式、文档和查询相关性的匹配能力、查询结果的排序和用户进行相关反馈的机制等。
就这种检索系统来说,当前的信息检索工具普遍存在这样的一些问题。
(1)检索比较模糊,精准性不强。用户所需要的文献可能由于计算机系统检索精确性低而不能完全检测到,而不相关和相关度较低的文档则被频繁的检索出来。
(2)检索工具在编制技术上存在问题。比如,只反映参考文献的第一作者,若从第二作者入手查,就无法使用检索工具;同一来源在索引中反复著录多次,浪费了许多篇幅,不经济;同名著者不能区分,同一作者的不同名字不易控制和合并,等等。
(3)无法实现一次性复杂检索。传统的信息检索系统允许多次简单条件进行“二次检索”,即在第一次检索的基础上,根据检索要求,在二次检索框中输入相应的检索词再次进行检索,逐步缩小范围。
与传统的检索方式相比较,基于用户的信息检索具有以下优势:
(1)利用反映用户信息需求的特征来进行检索。
(2)相关反馈检索,即根据检索库中各个被检索单元与用户检索需求的相关程度而二次检索。
传统的信息检索通常是不区分用户所处的社会环境、受教育的程度和个人的能力这些因素而进行检索的,因而大多数用户无法从检索方法、检索策略和检索结果中获取个人的需要。例如,输入“番茄”关键词查询有关番茄的信息,得到的结果中一定含有“番茄”,而“西红柿”、“圣女果”都可以表达相同的概念,却由于词形上的差异不能满足关键词匹配的要求。又比如“航天飞机”和“太空梭”虽然指的概念是一样的,但在中文检索工具上用“航天飞机”是查不到“太空梭”的主页的。显然,相关反馈检索是相当有用的。
在改进的检索系统中用户可以评估文档,并且把信息反馈到检索系统中,另一方面系统通过获取用户感兴趣的领域和用户的检索行为建立用户模型库,并执行一次新的查询。
相关反馈技术能够提供更为智能化、知识化的服务的技术,它可以使检索性能得到很大的提高,在检索过程中,它提供了一个受控查询改变的过程,在强调某些重要的检索词的同时,削弱了另外一些检索词。系统根据用户的查询要求返回检索结果。用户对检索系统进行评价和标记,并将这些信息反馈给系统,将查询操作划分成一个个小的查询过程,以逐渐接近用户想要的目标文档。系统则根据这些信息进行学习,并返回新的查询结果,从而使检索结果更加满足用户的要求。在此过程中系统需要为用户建立模型以用来存储用户的兴趣、检索习惯、用户背景等信息,用户所要做的工作是处理文档所包含的思想和概念。
首先,用户提出一个查询请求,检索系统开始进行原始的查找,检索系统根据用户文档修改用户查询条件,并对用户提问查询进行重新查找;其次,用户罗列出返回的那些内容是关联性大的,然后检索系统会自动的使用其中检索词来进行扩检查询,基于用户相关性来形成新的查询。通过这种用户与相关反馈系统的相互作用不断完善和精确用户的查询请求。同时,相关反馈过程也是一个不断重复的过程。我们要解决的重点是,怎样收集并组织相关文献,怎样优化查询,怎样选定新的检索词,而相关反馈模型检索能比较完善的解决了这个问题。
2 基于用户的相关反馈模型机制
检索系统通过观察用户与系统之间的交互动作获取用户的个人兴趣,从而利用相关反馈来扩展对用户的查询。因而基于用户的相关反馈模型能够根据用户的使用情况,适时调整系统的主题和全局模式,以满足用户的需要,将使系统更加灵活。例如,当全社会掀起创建和谐社会时,对于互帮互助、雷锋精神相关的文献需求量可能会增加;在进行高科技技术学习时,可能对航空航天相关文献的需求又会增加。对于这种需要,虽然事先无法预料,但可以通过对用户检索内容的分布情况的分析来对主题和全局模式进行调整。
2.1 采集用户查询行为信息
在进行采集用户行为信息前要进行需求分析,即明确采集目标。需求分析是整个信息采集的出发点,也是整个信息采集工作效率高低和成败的关键。在采集过程中根据信息采集的需求不同,要采用不同的采集。不同类型、不同内容的用户信息,获取的途径和方法也不一样。用户查询行为的采集应采用调查问卷、启发式采集、现场搜集等方式来获取,例如用户的移动手持设备,方便用户,充分发挥手持设备的优势,利用拍照和录音功能实现用户查询行为信息采集、信息采集的“移动化”、“零手写”。利用河南移动公司的设备定位技术,实现信息采集地点的自动定位,提高信息采集的效率。 采用查全率和查准率来对反馈技术在经过前处理的检索模型和没有经过前处理的模型上的有效进行分析。
查全率=检出相关信息量/系统中相关信息总量×100%
查准率=检出相关信息量/检出信息总量×100%
根据实验结果可以看出基于反馈技术在信息检索模型上是有效的,但是实验结果说明该种方法还需进一步的论证,从而提高查全率和查准率。
经过比较可以得出结论:前处理技术一定程度上提高了相关反馈的查准率,而查全率和未经过处理前的模型差不多。
2.2 用户检索结果的相关度研究
在实际检索中,假设用户检索最终结果的数量超过了一定的条数,或者页码过多,那么用户只能重点浏览前面的检索结果,而对后面的内容漠不关心。因此,就要对检索结果进行相关度排序,把相关度高的结果排在前面,这就要对系统进行设计。其主要思想是对文献的题目、关键词、作者、内容摘要四个位置进行相关度的计算,为每个地方设计一个不同的权重,相关度越高的则权重越高。
相关度的计算方法如下:
假设有检索词k,计算机检索得到的结果集L={l0,l1, …,ln}(n∈N),L中的各个项进行相关度排序。设LKi为k的一个检索结果li,则li∈L。LMi为li用户使用过的次数。则L中的任意两项li,lj存在以下关系:
(1)当仅当LKi=LKj, LMi=LMj,那么li=lj;
(2)如果LKi>LKj,那么li>lj;
(3)如果LKi=LKj, LMi>LMj,那么li>lj。
该算法表示如下:
Void QueryResultCollection::
RankSort()
{ if(—result.Size()<2)
return;
Icompare rankCompare=new RankCompare();
—result.Sort(rankCompare);}
Public class RankCompare:Icompare
{int Icompare::Compare(Object x,Object y)
{Return(QueryResult)x.CompareTo((QueryResult)y);}}
2.3 用户模型的设计
用户兴趣模型的系统结构,以下给出用户感兴趣的主题模型:
设xi为某个主题,集合F={x0,x1,…,xm}为某个主题领域所有主题,有xi∈{x0,x1,…,xm}.
记L(xi)≡1代表一个用户在一次检索中对主题xi感兴趣,∑L(xi)为在时间段t内对主题xi感兴趣的用户的总和。
那么存在集合M={∑L(x0),∑L(x1),…,∑L(xm)},表示在时间段t内,对主题域中的每个主题,对其感兴趣的用户总数的集合M。
在M中可以找到一个集合P,使得P,且对于P中任一元素Pi,都有Pi>Mi,Mi∈(M-P)。
这时,由P中元素对应的主题组成的集合,就是要寻找的主题集合。
对于集合F,如果选择的主题太大,则在集合M中可能存在大量元素的值偏小,这时需要通过系统管理员的人工判断来选择。本系统主要是对一定时间内用户检索内容的分类情况和涉及的主题情况,进行统计来分析检索内容的分布情况。在每个用户检索时,一方面是对其感兴趣的检索结果进行记录,一方面是对其使用的检索词进行匹配,从而得到单个用户一次检索时的兴趣范围,通过对一段时间内所有用户的兴趣范围的累计,得出一个用户兴趣范围的分布情况表,即兴趣模型。
3 结语
当前对相关反馈模型的研究日益深入,它有助于实现个性化的智能检索服务,信息检索是一个涉及自然语言处理各个方面的研究领域,用户反馈模型的引入,可以挖掘用户信息之间的内在联系,检索的结果能准确、系统的反映用户的需求。通过研究新的相关反馈模型机制,拓展信息检索领域的研究内容,推进信息技术的利用水平,主要表现在挖掘用户的潜在兴趣、开辟新的兴趣领域和进行专门的检索服务。信息检索中的相关反馈模型的研究已经成为人们日益关注的一个热点, 是未来检索服务的一个研究方向,基于用户个性化的检索模式将会随着不断完善的功能、不断提高的准确性,为人们获取信息提供更多的便利。但是在其实现过程中,仍旧存在不少困难,如用户兴趣的遗忘、用户兴趣的挖掘、反馈学习机制的优化模型,以及多用户兴趣模型的设计和实现, 这些都还有待进一步改进和解决。
参考文献
[1] 李业丽,林鸿飞,姚天顺.基于事例的用户信息需求模型[J].用户计算机工程与用,2000.
[2] 李广建,黄昆.用户模型及其学习方法[J].现代图书情报技术,2002.
[3] 王志军,于超.基于隐式反馈的个人信息检索技术及实现[J].工程应用技术与实现,2003.