论文部分内容阅读
【摘 要】随着信息量的日益增长,用户要在巨大的信息海洋中查找自己所需的信息就变得复杂,这就需要对信息进行相关性选择,以提高查询的检全率和检准率。为此,人们提出了一系列检索模型,本文介绍了这些检索模型以及在此基础上的发展。
【关键词】信息检索;检索模型;认知心理学;综述
一、引言
信息检索是寻找相关信息的过程,而检索过程始终都涉及相关性问题。相关性是信息需求内容与文献内容之间的一种关系,为了正确地解释检索过程,就必须给相关性一个合理的衡量。为此,人们提出了一系列检索模型,本文就讨论介绍了这些信息检索模型研究的进展。文中笔者将检索模型分为基于系统的检索模型、基于认知心理学的检索模型和基于本体的检索模型三大类。
二、基于系统的信息检索模型
在基于系统的检索模型中,可以分为逻辑模型、模糊模型、向量空间模型和概率模型。
1.逻辑模型及其发展
1957年,巴-希列尔(Y.Bar-Hille)提出布尔逻辑模型。布尔逻辑式构造简单,但其不易全面反映用户的需求,匹配标准存在某些不合理的地方,且检索结果不能按照用户定义的重要性排序输出,很难控制输出量的大小,对用户的素质有很高的要求。
为了克服传统布尔逻辑模型的一些缺陷,Waller和Kraft在1979年提出了加权布尔逻辑检索模型。加权布尔逻辑检索模型通过对标引词进行加权,解决了传统布尔逻辑检索模型的一些缺点,比如无法排序、不能区分检索词的重要程度,但同时也带来了一个问题,即布尔逻辑操作算符在不加权布尔逻辑查询情形下的许多算律(如交换律、结合律等)已不再成立。
在Waller和Kraft之后,Salton于1983年提出扩展布尔模型。扩展模型是传统布尔逻辑检索模型完全匹配的严格性和向量模型提问的无结构性的折中,在保持布尔逻辑检索的结构式提问的同时,也吸取了模糊检索和向量检索模型的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton模型可以分别表现为布尔模型、向量空间模型和模糊模型。
2.模糊模型及其发展
布尔模型和扩展的布尔模型主要是基于康托(Contor)的经典集合论,但经典集合论容不得模糊的概念,这对于信息检索过程中所存在的模糊性的解释造成一定的困难,用户对检索结果的满意程度也具有不确定性。为了解决这种模糊性引起的不确定问题,人们引入模糊集合理论来构建模糊集合模型。
模糊集合模型是基于美国自动控制专家扎得(L.A.Zadeh)的“模糊集合”理论,模糊检索将文献看成是与某提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关;对于某一给定的标引词,用隶属函数表示每一文献与该词相关的程度,即隶属度,其取值在[0,1]上。在模糊集合检索中,对于布尔模型的用户信息需求的处理通常是把表达用户需求的布尔逻辑式转换成析取范式的形式。基于模糊集合模型的检索结果是建立在文献集上的,且其隶属度就是文献集对用户提问的相关程度的模糊子集。但目前而言,还无法十分精确、有效地确定这个隶属函数。
3.向量空间模型及其发展
向量空间模型(VSM)由Salton等人提出,向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点。而通过计算向量之间的距离来判定文档和查询之间的相似程度。然后,根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。
作为对向量空间模型的一种改进,S.K.M.Wong建立了广义向量空间模型,其中考虑了词与词之间的相依性。该模型在没有假设词与词之间互相独立的前提下,把词向量用一组适当选择的正交基向量来表示,这样,词之间的关系可以直接由其向量表示给出较为精确的计算。但是广义向量空间(GVSM)模型本身比传统的向量空间模型复杂,难于理解,计算复杂性和代价远高于传统的向量空间模型。
4.概率模型及其发展
①贝叶斯网络模型。贝叶斯网络模型是概率信息检索模型的扩展,在信息检索领域,主要是利用贝叶斯网络模型表示术语间的关系以及对查询与文档间的相似度进行预测。因为贝叶斯网络模型能很好地处理信息检索中的不确定性,并存储术语间的条件概率和概念语义,所以可以实现基于语义概念的查询。
②信任度网络模型。1996年,Riberio-Neto和Muntz提出的信任度网络模型也是基于贝叶斯网络,模型采用一个明确定义的樣本空间。用户查询被模型化为一个二值随机变量,构成查询概念的标引词结点指向该二值随机变量,文献也与用户查询进行相同的处理。在该模型中,将网络中的文献和查询分割开来,方便了附加的证据源,且由于文献和查询空间的分开,当逆命题不正确时,信任度网络模型可以重新产生由推理网络模型生成的任何排序策略。
三、基于认知心理学的信息检索模型
基于认知心理学的信息检索模型主要就是基于语义的信息检索模型,下面我们就介绍这样一些语义检索模型。
1.潜在语义索引模型
S.T.Dumais等人提出了潜在语义检索模型,是将文献和查询向量映射到与概念相关的维数较低的空间,可以通过把标引词向量映射到维数较低的空间来实现。它认为在维数降低了的空间的检索可能优于在集合中的检索。
2.二元语义检索模型
二元语义检索模型是基于二元语义的信息检索模型。该模型包含文档的表示、查询语句的表示、文档和查询的匹配三个部分。在这个模型中,文件的表示使用索引词权重的形式,在查询语句中引入阈值权重,这样,用户对检索词表示文档内容时的重要程度提出了要求,匹配函数使用二元语义的匹配函数,通过自下而上的匹配过程,最终得到了每篇文档的检索值,对于传统的基于查询关键词精确匹配的信息检索模型,该模型能较好地满足用户查询要求中的灵活性。
四、本体模型及其发展
在对本体进行研究的基础之上,我国很多学者提出了一些基于本体的信息检索模型。
首先是中科大的王进、陈恩红等人研究的基于本体的跨语言信息检索模型,该模型利用本体来刻画不同语言中对应的领域知识,解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题,从而保证在检索过程中能够有效地遵循用户的查询意图,获得预期的检索信息。
之后不久,国防科技大学的宋峻峰、张维明等人提出另外一种基于本体的信息检索模型,它使用较好的兼顾了知识表达能力和推理效率的描述逻辑来构建本体,利用tableau算法和只含有原子角色情况下个体间的等价关系分别生成概念集和个体集的商集,从而得到具有语义的索引项集合,利用这些具有语义的索引项来生成较好地反映文档和用户信息需求语义的文档逻辑视图和用户信息需求逻辑视图。
五、结语
由此可见,各种检索模型都有自己的特征、优势和不足之处。它们的发展并不是同步的,而是交叉、互补的,特别是许多检索模型还处于理论探索和实验系统阶段,在应用上还各有侧重,即使有实验数据,由于采集的样本不同(由于适用范围不尽相同),也很难对各种模型进行定量比较和评价。总之,随着计算机技术、网络技术、多媒体技术、人工智能技术等的发展,信息检索模型已由传统的布尔逻辑模型发展到了定量化阶段,并不断向智能化、网络化方向发展,未来的检索模型将发展成为智能化、网络化、综合性的多媒体检索模型。
参考文献:
[1]刘红泉,张亮峰.布尔逻辑检索模型的分析探讨[J].现代情报,2004(9):4-6.
[2]袁鼎荣,谢扬才,陆广泉,刘星.一种新的基于软集合理论的文本分类方法[J].广西师范大学学报(自然科学版),2011(1):129-132.
[3]张荐硕,方钰.基于向量空间模型的Web服务发现方法[J].计算机工程,2011(3):36-38.
[4]李振东,费翔林.基于概念的信息检索模型研究[J].南京大学学报(自然科学),2002,38(1):99-109.
[5]武兴龙,刘新旺.二元语义信息检索模型[J].现代图书情报技术,2006(6):43-46.
【关键词】信息检索;检索模型;认知心理学;综述
一、引言
信息检索是寻找相关信息的过程,而检索过程始终都涉及相关性问题。相关性是信息需求内容与文献内容之间的一种关系,为了正确地解释检索过程,就必须给相关性一个合理的衡量。为此,人们提出了一系列检索模型,本文就讨论介绍了这些信息检索模型研究的进展。文中笔者将检索模型分为基于系统的检索模型、基于认知心理学的检索模型和基于本体的检索模型三大类。
二、基于系统的信息检索模型
在基于系统的检索模型中,可以分为逻辑模型、模糊模型、向量空间模型和概率模型。
1.逻辑模型及其发展
1957年,巴-希列尔(Y.Bar-Hille)提出布尔逻辑模型。布尔逻辑式构造简单,但其不易全面反映用户的需求,匹配标准存在某些不合理的地方,且检索结果不能按照用户定义的重要性排序输出,很难控制输出量的大小,对用户的素质有很高的要求。
为了克服传统布尔逻辑模型的一些缺陷,Waller和Kraft在1979年提出了加权布尔逻辑检索模型。加权布尔逻辑检索模型通过对标引词进行加权,解决了传统布尔逻辑检索模型的一些缺点,比如无法排序、不能区分检索词的重要程度,但同时也带来了一个问题,即布尔逻辑操作算符在不加权布尔逻辑查询情形下的许多算律(如交换律、结合律等)已不再成立。
在Waller和Kraft之后,Salton于1983年提出扩展布尔模型。扩展模型是传统布尔逻辑检索模型完全匹配的严格性和向量模型提问的无结构性的折中,在保持布尔逻辑检索的结构式提问的同时,也吸取了模糊检索和向量检索模型的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton模型可以分别表现为布尔模型、向量空间模型和模糊模型。
2.模糊模型及其发展
布尔模型和扩展的布尔模型主要是基于康托(Contor)的经典集合论,但经典集合论容不得模糊的概念,这对于信息检索过程中所存在的模糊性的解释造成一定的困难,用户对检索结果的满意程度也具有不确定性。为了解决这种模糊性引起的不确定问题,人们引入模糊集合理论来构建模糊集合模型。
模糊集合模型是基于美国自动控制专家扎得(L.A.Zadeh)的“模糊集合”理论,模糊检索将文献看成是与某提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关;对于某一给定的标引词,用隶属函数表示每一文献与该词相关的程度,即隶属度,其取值在[0,1]上。在模糊集合检索中,对于布尔模型的用户信息需求的处理通常是把表达用户需求的布尔逻辑式转换成析取范式的形式。基于模糊集合模型的检索结果是建立在文献集上的,且其隶属度就是文献集对用户提问的相关程度的模糊子集。但目前而言,还无法十分精确、有效地确定这个隶属函数。
3.向量空间模型及其发展
向量空间模型(VSM)由Salton等人提出,向量空间模型把用户的查询要求和数据库文档信息表示成由检索项构成的向量空间中的点。而通过计算向量之间的距离来判定文档和查询之间的相似程度。然后,根据相似程度排列查询结果。向量空间模型的关键在于特征向量的选取和特征向量的权值计算两个部分。
作为对向量空间模型的一种改进,S.K.M.Wong建立了广义向量空间模型,其中考虑了词与词之间的相依性。该模型在没有假设词与词之间互相独立的前提下,把词向量用一组适当选择的正交基向量来表示,这样,词之间的关系可以直接由其向量表示给出较为精确的计算。但是广义向量空间(GVSM)模型本身比传统的向量空间模型复杂,难于理解,计算复杂性和代价远高于传统的向量空间模型。
4.概率模型及其发展
①贝叶斯网络模型。贝叶斯网络模型是概率信息检索模型的扩展,在信息检索领域,主要是利用贝叶斯网络模型表示术语间的关系以及对查询与文档间的相似度进行预测。因为贝叶斯网络模型能很好地处理信息检索中的不确定性,并存储术语间的条件概率和概念语义,所以可以实现基于语义概念的查询。
②信任度网络模型。1996年,Riberio-Neto和Muntz提出的信任度网络模型也是基于贝叶斯网络,模型采用一个明确定义的樣本空间。用户查询被模型化为一个二值随机变量,构成查询概念的标引词结点指向该二值随机变量,文献也与用户查询进行相同的处理。在该模型中,将网络中的文献和查询分割开来,方便了附加的证据源,且由于文献和查询空间的分开,当逆命题不正确时,信任度网络模型可以重新产生由推理网络模型生成的任何排序策略。
三、基于认知心理学的信息检索模型
基于认知心理学的信息检索模型主要就是基于语义的信息检索模型,下面我们就介绍这样一些语义检索模型。
1.潜在语义索引模型
S.T.Dumais等人提出了潜在语义检索模型,是将文献和查询向量映射到与概念相关的维数较低的空间,可以通过把标引词向量映射到维数较低的空间来实现。它认为在维数降低了的空间的检索可能优于在集合中的检索。
2.二元语义检索模型
二元语义检索模型是基于二元语义的信息检索模型。该模型包含文档的表示、查询语句的表示、文档和查询的匹配三个部分。在这个模型中,文件的表示使用索引词权重的形式,在查询语句中引入阈值权重,这样,用户对检索词表示文档内容时的重要程度提出了要求,匹配函数使用二元语义的匹配函数,通过自下而上的匹配过程,最终得到了每篇文档的检索值,对于传统的基于查询关键词精确匹配的信息检索模型,该模型能较好地满足用户查询要求中的灵活性。
四、本体模型及其发展
在对本体进行研究的基础之上,我国很多学者提出了一些基于本体的信息检索模型。
首先是中科大的王进、陈恩红等人研究的基于本体的跨语言信息检索模型,该模型利用本体来刻画不同语言中对应的领域知识,解决从查询语言到检索语言之间转换过程中出现的语义损失和曲解等问题,从而保证在检索过程中能够有效地遵循用户的查询意图,获得预期的检索信息。
之后不久,国防科技大学的宋峻峰、张维明等人提出另外一种基于本体的信息检索模型,它使用较好的兼顾了知识表达能力和推理效率的描述逻辑来构建本体,利用tableau算法和只含有原子角色情况下个体间的等价关系分别生成概念集和个体集的商集,从而得到具有语义的索引项集合,利用这些具有语义的索引项来生成较好地反映文档和用户信息需求语义的文档逻辑视图和用户信息需求逻辑视图。
五、结语
由此可见,各种检索模型都有自己的特征、优势和不足之处。它们的发展并不是同步的,而是交叉、互补的,特别是许多检索模型还处于理论探索和实验系统阶段,在应用上还各有侧重,即使有实验数据,由于采集的样本不同(由于适用范围不尽相同),也很难对各种模型进行定量比较和评价。总之,随着计算机技术、网络技术、多媒体技术、人工智能技术等的发展,信息检索模型已由传统的布尔逻辑模型发展到了定量化阶段,并不断向智能化、网络化方向发展,未来的检索模型将发展成为智能化、网络化、综合性的多媒体检索模型。
参考文献:
[1]刘红泉,张亮峰.布尔逻辑检索模型的分析探讨[J].现代情报,2004(9):4-6.
[2]袁鼎荣,谢扬才,陆广泉,刘星.一种新的基于软集合理论的文本分类方法[J].广西师范大学学报(自然科学版),2011(1):129-132.
[3]张荐硕,方钰.基于向量空间模型的Web服务发现方法[J].计算机工程,2011(3):36-38.
[4]李振东,费翔林.基于概念的信息检索模型研究[J].南京大学学报(自然科学),2002,38(1):99-109.
[5]武兴龙,刘新旺.二元语义信息检索模型[J].现代图书情报技术,2006(6):43-46.