论文部分内容阅读
网格信息检索是信息检索和网格技术相融合的新领域。与搜索引擎相比,网格信息检索将搜索任务分配给网格上相关的计算资源,极大地提升了检索的速度,既不需要网络蜘蛛搜集数据,也不需要维持一个庞大的数据库。
一、网格信息检索的架构
网格信息检索(GIR)将网格计算应用于信息检索中,为分布式信息检索提供一种通用的架构。它以开放网络服务体系结构(OGSA)作为通用计算平台,并将信息检索引入到网格计算中。
网格信息检索的基本思想是将搜集管理器、索引器和查询处理器3个功能组件应用于信息检索系统,以实现网格服务功能。图中的网格/因特网是实现网格信息检索的基本网格环境,主要负责来源文献的存储及提供网格环境下的分布式服务器和通信协议。该架构的基本流程为系统管理员向搜集管理器发送配置命令,包括监视对象的URL及过滤规则等,然后搜集管理器根据配置命令跟踪网格/因特网上的数据,并向网格/因特网发送文档请求,并获得反馈信息,随后搜集管理器将更新通报索引器进行索引更新,索引器再将更新结果传达给查询数据库,最后查询处理器完成用户查询请求。各功能模块的具体描述如下:
(1)搜集管理器(CM)
CM通过网格信息检索服务组件搜集和管理需索引的源文献。搜集管理器搜集本地和远程的文献并进行预处理,然后存放于本地存储器。通常搜集管理器要把这些本地存储按照特定规则提供给客户。这里的客户通常是指索引器(IS),索引器将对这些源文献进行索引。CM负责监视文档的更新和添加,当有文档更新或添加时,通知索引器重新索引。CM本质上是对虚拟文献的搜集,它将源文献提供给一个或多个IS,同时IS也可以从一个或多个CM那里获得源文献。
(2)索引器(1S)
CM将源文献组织起来提供给IS,IS对CM提供的源文献进行索引、创建数据结构等预处理,这些预处理为后期的搜索作准备。IS也具有独立的“检索界面”,该界面由能够实现索引检索功能的集合组成,查询处理器(QP)也提供这些功能集,即IS和QP共同完成通过搜索界面的信息查询。IS同一个传统的信息检索系统功能组件相似,它从CM那里获得源文献,并加以标引建库,然后提供检索功能,而且其检索界面和传统检索系统是兼容的。
(3)查询处理器(QP)
QP负责管理查询和检索结果集,其主要功能包括对用户提交的查询请求进行扩展等预处理,此外还要将查询请求发送给多个IS进行处理。
QP提供了与IS同样的检索界面,可以把它看作“虚拟的IS”。它自身没有索引的能力,而只是作为一个提供检索功能的通道,通向其他的IS。QP的典型应用是作为独立IS和CM的搜索接口,其中IS和CM可以不依赖QP进行动态管理,检索接口可以由QP单独组成,也可以由IS和CM协同组成,这样便于单独访问CM和IS。
所有功能模块都包括“解释”功能,该功能提供了关于诸如可用文献类型等服务的元数据。
通常,各功能模块的相互影响是异步的,网格信息检索的管理、更新和搜索完全是事件驱动型的。这些功能组件作为网格服务是分布式自治的,CM、IS和QP的所有排列组合都只是GRID多重虚拟组织的一部分。网格信息检索既可以用于创建新的信息检索系统,还可以将现存的检索系统整合到一个互操作的信息检索服务网中。
二、网格信息检索的特性
1.分布式搜索和搜集:网格计算提供分布式组件的整合,网格信息检索汲取了网格计算领域的此类研究成果,提升了分布式搜索的互操作能力,试图以一种标准的方式实现分布式文档搜集、处理和索引,传统信息检索系统是无法实现的。
2.信息检索系统的动态、个性化创建:网格服务是以分布、协同的方式实现的,因此基于网格信息检索模型的信息检索系统也可以根据用户需求动态创建,实现了“客户端”的个性化。
3.客户化的安全模型:运用虚拟组织的分布式检索可以允许具有异类安全需求的组织子集同时存在。
三、网格信息检索服务
网格信息检索服务是建立在网格环境下的信息检索服务,它通过应用软件、检索入口向用户提供文档、文摘及其他满足用户需求的数据项目服务。
网络信息检索服务的目标是:
1.提出网格信息检索服务需求:网格信息检索作为网格服务集的主要功能包括:搜集器,搜集基于网络的文档;索引器,为用户检索建立数据和文件结构;查询处理器,执行用户查询并反馈查询结果:整合器,将不同源的结果整合排序;反馈,获得处理结果并提交用户;其他的子系统和控制系统。
网格信息检索除了具备上述常规功能外,还具有基于网格环境的特殊应用:快速更新数据集表;复合源数据集的联合;基于网格安全构架的数据集内容访问;单数据集索引和查询处理;查询结果后处理;计算资源的有效利用;快速反馈和上下文交互,包括查询结果的可视化和基于不同用户的复合数据察看;基于一致结果生成的最优算法选择,通过对同一查询结果的不同算法的响应时间、复杂度等各方面来确定算法的优劣。
2.规范的定义:开放网格体系结构和网络服务流语言(WSFL)技术的结合为连接网格服务提供了一个框架。但这些技术仅提供了底层的构造框架,为了实现不同的功能,还必须对爬虫、索引器、搜索和表示引擎等各项服务进行具体的描述。GridIR工作组开发了一种拱形信息检索架构,这种架构针对不同等级的需求建立相互独立的服务模型,并为各独立检索服务开发不同的接口规范,最后将所有的服务整合到一个系统中。此外,该工作组正在开发一种即插即用型的网格信息检索构架,这种模型可以快速整合标准化的检索模块。
3.应用支持:网格信息检索由于应用于诸多研究领域,它的实现需要考虑以下问题和技术:(1)网格信息检索的分布式属性,拓展了检索的范围,可以进行超大容量的搜集。(2)文档可是纯文本、HTML或是XML格式。(3)多媒体文档,包括视频、音频及其他非文本格式。(4)基于多语言的文档和查询。(5)搜集方式多样性。(6)支持多种基本信息检索算法,如布尔算法、向量空间模型、概率检索模型、页面排序、潜在语义索引等。(7)子文档检索、提问回答。(8)长短查询、文档过滤。
虽然上述信息检索技术并不能全部应用于分布式网格处理的过程中,但大部分是可以实现的。同时,网格信息检索将借助于传统网络信息检索的技术和经验,例如,借鉴Z39.50将一个查询提交给多个搜索引擎处理的功能,网格信息检索将通过网格安全和认证架构上的层信息检索,提供搜索结果的归并和排序技术,从而拓展Z39.50的功能。
四、结 语
随着网格技术的逐步完善,网格计算安全性的提高以及网格虚拟操作系统的体系结构、标准和协议开放性的增强,网格信息检索将会迅速发展。在可预期的将来,人们可以拥有个性化的检索系统,系统可以根据个人的需求、爱好和兴趣自动调节检索机制,并将普通服务和网格服务以新的方式加以整合。
参考文献
1 GridIR Architectnre Tutorial//www.gridir.org
2 GirWG.Grid Information RetrievalArchitecture.http://www.gridfo-rum.org
3 http://gir-wg.org/wg_docs_char-ter.html
4 z39.50 search retrieve applicationprotocol.http://www.10c.gov/z3950/agency
一、网格信息检索的架构
网格信息检索(GIR)将网格计算应用于信息检索中,为分布式信息检索提供一种通用的架构。它以开放网络服务体系结构(OGSA)作为通用计算平台,并将信息检索引入到网格计算中。
网格信息检索的基本思想是将搜集管理器、索引器和查询处理器3个功能组件应用于信息检索系统,以实现网格服务功能。图中的网格/因特网是实现网格信息检索的基本网格环境,主要负责来源文献的存储及提供网格环境下的分布式服务器和通信协议。该架构的基本流程为系统管理员向搜集管理器发送配置命令,包括监视对象的URL及过滤规则等,然后搜集管理器根据配置命令跟踪网格/因特网上的数据,并向网格/因特网发送文档请求,并获得反馈信息,随后搜集管理器将更新通报索引器进行索引更新,索引器再将更新结果传达给查询数据库,最后查询处理器完成用户查询请求。各功能模块的具体描述如下:
(1)搜集管理器(CM)
CM通过网格信息检索服务组件搜集和管理需索引的源文献。搜集管理器搜集本地和远程的文献并进行预处理,然后存放于本地存储器。通常搜集管理器要把这些本地存储按照特定规则提供给客户。这里的客户通常是指索引器(IS),索引器将对这些源文献进行索引。CM负责监视文档的更新和添加,当有文档更新或添加时,通知索引器重新索引。CM本质上是对虚拟文献的搜集,它将源文献提供给一个或多个IS,同时IS也可以从一个或多个CM那里获得源文献。
(2)索引器(1S)
CM将源文献组织起来提供给IS,IS对CM提供的源文献进行索引、创建数据结构等预处理,这些预处理为后期的搜索作准备。IS也具有独立的“检索界面”,该界面由能够实现索引检索功能的集合组成,查询处理器(QP)也提供这些功能集,即IS和QP共同完成通过搜索界面的信息查询。IS同一个传统的信息检索系统功能组件相似,它从CM那里获得源文献,并加以标引建库,然后提供检索功能,而且其检索界面和传统检索系统是兼容的。
(3)查询处理器(QP)
QP负责管理查询和检索结果集,其主要功能包括对用户提交的查询请求进行扩展等预处理,此外还要将查询请求发送给多个IS进行处理。
QP提供了与IS同样的检索界面,可以把它看作“虚拟的IS”。它自身没有索引的能力,而只是作为一个提供检索功能的通道,通向其他的IS。QP的典型应用是作为独立IS和CM的搜索接口,其中IS和CM可以不依赖QP进行动态管理,检索接口可以由QP单独组成,也可以由IS和CM协同组成,这样便于单独访问CM和IS。
所有功能模块都包括“解释”功能,该功能提供了关于诸如可用文献类型等服务的元数据。
通常,各功能模块的相互影响是异步的,网格信息检索的管理、更新和搜索完全是事件驱动型的。这些功能组件作为网格服务是分布式自治的,CM、IS和QP的所有排列组合都只是GRID多重虚拟组织的一部分。网格信息检索既可以用于创建新的信息检索系统,还可以将现存的检索系统整合到一个互操作的信息检索服务网中。
二、网格信息检索的特性
1.分布式搜索和搜集:网格计算提供分布式组件的整合,网格信息检索汲取了网格计算领域的此类研究成果,提升了分布式搜索的互操作能力,试图以一种标准的方式实现分布式文档搜集、处理和索引,传统信息检索系统是无法实现的。
2.信息检索系统的动态、个性化创建:网格服务是以分布、协同的方式实现的,因此基于网格信息检索模型的信息检索系统也可以根据用户需求动态创建,实现了“客户端”的个性化。
3.客户化的安全模型:运用虚拟组织的分布式检索可以允许具有异类安全需求的组织子集同时存在。
三、网格信息检索服务
网格信息检索服务是建立在网格环境下的信息检索服务,它通过应用软件、检索入口向用户提供文档、文摘及其他满足用户需求的数据项目服务。
网络信息检索服务的目标是:
1.提出网格信息检索服务需求:网格信息检索作为网格服务集的主要功能包括:搜集器,搜集基于网络的文档;索引器,为用户检索建立数据和文件结构;查询处理器,执行用户查询并反馈查询结果:整合器,将不同源的结果整合排序;反馈,获得处理结果并提交用户;其他的子系统和控制系统。
网格信息检索除了具备上述常规功能外,还具有基于网格环境的特殊应用:快速更新数据集表;复合源数据集的联合;基于网格安全构架的数据集内容访问;单数据集索引和查询处理;查询结果后处理;计算资源的有效利用;快速反馈和上下文交互,包括查询结果的可视化和基于不同用户的复合数据察看;基于一致结果生成的最优算法选择,通过对同一查询结果的不同算法的响应时间、复杂度等各方面来确定算法的优劣。
2.规范的定义:开放网格体系结构和网络服务流语言(WSFL)技术的结合为连接网格服务提供了一个框架。但这些技术仅提供了底层的构造框架,为了实现不同的功能,还必须对爬虫、索引器、搜索和表示引擎等各项服务进行具体的描述。GridIR工作组开发了一种拱形信息检索架构,这种架构针对不同等级的需求建立相互独立的服务模型,并为各独立检索服务开发不同的接口规范,最后将所有的服务整合到一个系统中。此外,该工作组正在开发一种即插即用型的网格信息检索构架,这种模型可以快速整合标准化的检索模块。
3.应用支持:网格信息检索由于应用于诸多研究领域,它的实现需要考虑以下问题和技术:(1)网格信息检索的分布式属性,拓展了检索的范围,可以进行超大容量的搜集。(2)文档可是纯文本、HTML或是XML格式。(3)多媒体文档,包括视频、音频及其他非文本格式。(4)基于多语言的文档和查询。(5)搜集方式多样性。(6)支持多种基本信息检索算法,如布尔算法、向量空间模型、概率检索模型、页面排序、潜在语义索引等。(7)子文档检索、提问回答。(8)长短查询、文档过滤。
虽然上述信息检索技术并不能全部应用于分布式网格处理的过程中,但大部分是可以实现的。同时,网格信息检索将借助于传统网络信息检索的技术和经验,例如,借鉴Z39.50将一个查询提交给多个搜索引擎处理的功能,网格信息检索将通过网格安全和认证架构上的层信息检索,提供搜索结果的归并和排序技术,从而拓展Z39.50的功能。
四、结 语
随着网格技术的逐步完善,网格计算安全性的提高以及网格虚拟操作系统的体系结构、标准和协议开放性的增强,网格信息检索将会迅速发展。在可预期的将来,人们可以拥有个性化的检索系统,系统可以根据个人的需求、爱好和兴趣自动调节检索机制,并将普通服务和网格服务以新的方式加以整合。
参考文献
1 GridIR Architectnre Tutorial//www.gridir.org
2 GirWG.Grid Information RetrievalArchitecture.http://www.gridfo-rum.org
3 http://gir-wg.org/wg_docs_char-ter.html
4 z39.50 search retrieve applicationprotocol.http://www.10c.gov/z3950/agency