论文部分内容阅读
【摘要】鉴于现有的搜索引擎的问题和广大分布式网络环境中的海量信息,基于Agent的信息检索系统也获得了相当大的关注。通过使用多Agent技术,采用元搜索引擎结构,结合数据库分类引擎学习机制,来实现信息资源优化。提出多Agent的信息检索系统框架的同时,探讨该系统的关键技术。
【关键词】信息检索多Agen网络
一、前言
随着Internet的飞速发展和广泛应用,在任何给定时间点的数据库的确切大小是不确定的,而不是一个封闭的关系模型的本地数据库的内容。所以说Internet是一个没有界限的数据库模型、一个开放的世界。为了得到更全面、更准确的结果,我们必须反复调用更多的搜索引擎(也称元搜索)。在本文中将多Agent技术和元搜索引擎技术有机结合,提出了多Agent的信息检索系统,让Agent挖掘网络信息之间的关连,建立模糊关系,依据用户个性化的模糊推理思维方式,为用户提供高效、完整的信息搜索服务。
二、多Agent的信息检索系统的优势
目前Internet上的一些搜索引擎虽然解决信息定位的基本问题,但他们的工作原理于p/s结构,存在或多或少的的缺陷。在多Agent技术的应用网络信息检索系统中,它可以将基于用户的检索要求多个Agent移动到远程的Web站点等信息数据源上,实时的进行本地信息分析,然后通过网络传输用户得到真正需要的索引信息。基于传统的p/s结构的信息搜索方法相比,基于多Agent的信息检索系统具有以下优势:(1)执行动态方式。基于网络的多Agent信息检索系统,Agent动态地将用户请求移动在网络节点上执行,移动Agent可以在节点的搜索信息使用过滤器。然后用户真正所需的信息通过网络输送回来,避免了网络传输回大量的无关数据。由于Agent的网络信息传输和信息搜索处于分开状态,所以大大降低了网络流量,降低了对带宽的要求。(2)计算异步能力。Agent是在服务器上执行,因此只需要传输源码、数据和操作状态的信息网络时确保稳定的网络连接,而在服务器上的信息过滤、搜索等占用大量时间的操作则不需要连接网络。这使得基于多Agent的信息检索系统对网络可靠性的依赖也大大降低,即使是在一个不稳定的网络环境下仍能保证稳定的工作。(3)路由自行选择。在信息检索过程中,根据任务目标,多Agent可以在网络通信和服务器的负载等因素自行动态规划下一步的操作。多Agent自主选择路由,可以用来优化网络信息资源,实现负载均衡,避免盲目对资源的访问。(4)并行搜索功能。该系统可以创建多个Agent到相同或不同的网络节点进行搜索,从而大大降低了时间来完成搜索任务。
综上所述,Agent具有智能化程度高,强适应性等特性,多Agent的信息检索技术是在分布式环境下,由多Agent相互通信、相互协作完成指定的任务。所有Agent由控制Agen统一的调控来完成信息检索和自动更新功能。
三、本系统关键技术探讨
在该系统中,多Agent通过引擎检索出用户需求的信息资源。而用户信息的表示方法,信息特点的采集,都不一定有规范性加上不确定性的知识,诸多的关键技术值得去探讨:(1)检索信息的收集。①元搜索技术。元搜索又称多搜索,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。②网络蜘蛛技术。网络蜘蛛是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。③RSS聚合内容技术。也叫简易信息聚合,是一种描述和同步网站内容的格式。(2)检索结果合成方案。资源信息中都包括了每个信息的标题和信息的具体内容,可以充分利用这些信息属性,将这些文本信息和用户查询之间的相似性文件进行计算,结合的分布位置排列搜索引擎来平衡之间的区别。将相似度最高的内容排在前面,从而提高了搜索质量。将搜索引擎查询出来的结果相结合,并存储在一个列表文件中,最后对列表进行过滤,排序。
网页P的页面等级值用PPR(p)表示,设用户的查询关键词为q:
以PPR(p)值为依据对检索结果进行排序,该过程具体由Agent完成。
四、总结
互联网丰富的资源,方便用户快速获取所需信息,但传统的搜索引擎返回的结果在数量的庞大和内容上的不相关性给用户信息检索的质量带来了直接的影响,造成了用户信息检索的困难。为了避免了无关信息的干扰,帮助用户更快,更准确地找到所需的信息,本文对基于网络的多Agent信息检索系统进行了研究,设计了多Agent信息检索系统框架,分析了该系统的关键技术,使之能提高查全率和查准率。
【关键词】信息检索多Agen网络
一、前言
随着Internet的飞速发展和广泛应用,在任何给定时间点的数据库的确切大小是不确定的,而不是一个封闭的关系模型的本地数据库的内容。所以说Internet是一个没有界限的数据库模型、一个开放的世界。为了得到更全面、更准确的结果,我们必须反复调用更多的搜索引擎(也称元搜索)。在本文中将多Agent技术和元搜索引擎技术有机结合,提出了多Agent的信息检索系统,让Agent挖掘网络信息之间的关连,建立模糊关系,依据用户个性化的模糊推理思维方式,为用户提供高效、完整的信息搜索服务。
二、多Agent的信息检索系统的优势
目前Internet上的一些搜索引擎虽然解决信息定位的基本问题,但他们的工作原理于p/s结构,存在或多或少的的缺陷。在多Agent技术的应用网络信息检索系统中,它可以将基于用户的检索要求多个Agent移动到远程的Web站点等信息数据源上,实时的进行本地信息分析,然后通过网络传输用户得到真正需要的索引信息。基于传统的p/s结构的信息搜索方法相比,基于多Agent的信息检索系统具有以下优势:(1)执行动态方式。基于网络的多Agent信息检索系统,Agent动态地将用户请求移动在网络节点上执行,移动Agent可以在节点的搜索信息使用过滤器。然后用户真正所需的信息通过网络输送回来,避免了网络传输回大量的无关数据。由于Agent的网络信息传输和信息搜索处于分开状态,所以大大降低了网络流量,降低了对带宽的要求。(2)计算异步能力。Agent是在服务器上执行,因此只需要传输源码、数据和操作状态的信息网络时确保稳定的网络连接,而在服务器上的信息过滤、搜索等占用大量时间的操作则不需要连接网络。这使得基于多Agent的信息检索系统对网络可靠性的依赖也大大降低,即使是在一个不稳定的网络环境下仍能保证稳定的工作。(3)路由自行选择。在信息检索过程中,根据任务目标,多Agent可以在网络通信和服务器的负载等因素自行动态规划下一步的操作。多Agent自主选择路由,可以用来优化网络信息资源,实现负载均衡,避免盲目对资源的访问。(4)并行搜索功能。该系统可以创建多个Agent到相同或不同的网络节点进行搜索,从而大大降低了时间来完成搜索任务。
综上所述,Agent具有智能化程度高,强适应性等特性,多Agent的信息检索技术是在分布式环境下,由多Agent相互通信、相互协作完成指定的任务。所有Agent由控制Agen统一的调控来完成信息检索和自动更新功能。
三、本系统关键技术探讨
在该系统中,多Agent通过引擎检索出用户需求的信息资源。而用户信息的表示方法,信息特点的采集,都不一定有规范性加上不确定性的知识,诸多的关键技术值得去探讨:(1)检索信息的收集。①元搜索技术。元搜索又称多搜索,通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。②网络蜘蛛技术。网络蜘蛛是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。③RSS聚合内容技术。也叫简易信息聚合,是一种描述和同步网站内容的格式。(2)检索结果合成方案。资源信息中都包括了每个信息的标题和信息的具体内容,可以充分利用这些信息属性,将这些文本信息和用户查询之间的相似性文件进行计算,结合的分布位置排列搜索引擎来平衡之间的区别。将相似度最高的内容排在前面,从而提高了搜索质量。将搜索引擎查询出来的结果相结合,并存储在一个列表文件中,最后对列表进行过滤,排序。
网页P的页面等级值用PPR(p)表示,设用户的查询关键词为q:
以PPR(p)值为依据对检索结果进行排序,该过程具体由Agent完成。
四、总结
互联网丰富的资源,方便用户快速获取所需信息,但传统的搜索引擎返回的结果在数量的庞大和内容上的不相关性给用户信息检索的质量带来了直接的影响,造成了用户信息检索的困难。为了避免了无关信息的干扰,帮助用户更快,更准确地找到所需的信息,本文对基于网络的多Agent信息检索系统进行了研究,设计了多Agent信息检索系统框架,分析了该系统的关键技术,使之能提高查全率和查准率。