论文部分内容阅读
近年来,智能信息检索(Intelligent Information Retrieval)作为人工智能(AI)的一个独立研究分支得到了迅猛的发展。随着Internet的发展和普及,越来越多的用户利用搜索引擎来搜索网上信息。尽管搜索引擎的发展已经比较成熟,但人们在使用中却发现要准确、快速地查找自己需要的信息越来越困难。面对网络信息服务的这种现状,人们在寻求一种将用户感兴趣的信息主动推荐给用户的服务方式,这就是个性化的主动信息服务。在实现个性化的主动信息服务中智能Agent技术起到了至关重要的作用。在系统地研究了基于Agent的个性化信息服务中所涉及的关键技术后,本文对Hsieh Chang Tu等人提出的智能信息检索Agent框架(简称IIR Agent)作了一些改进,将用户兴趣建模、信息搜索、信息过滤功能各用一个Agent模块实现,改进后的系统称为基于多Agent的智能信息检索系统(Intelligent Information Retrieval based on Multi-Agent,简称IIR M-Agent)。系统通过分析用户经常访问的页面,自动学习用户的浏览兴趣,帮助用户选择感兴趣的页面。首先介绍了多Agent群组的工作原理,阐述了各个Agent的任务以及它们之间如何协作完成智能检索、自动通告、导航等功能。其次具体介绍了系统的三个主要模块——用户Agent、信息搜索Agent、信息过滤Agent的原理和实现。通过用户信息需求的表达和信息反馈,形成并训练用户Agent,负责表示、建立和更新用户兴趣模型。一般用户兴趣模型的表示采用词频法,即用户兴趣用二元组表示(兴趣词条、兴趣权重)。本文对一般的词频法作了一点改进,即计算兴趣权重不仅考虑词条在文档中出现的次数,还考虑到各个词条在文档中的不同位置体现词条的不同重要度,以及各文档在网页超链关系中引用与被引用情况体现文档的不同重要度等因素,采用修正词条使得对兴趣词条的选择更客观、准确,有效地避免了将出现频率高而意义不大的词条作为兴趣词条的问题。本文不仅对一般兴趣模型进行了改进,而且提出一种新的兴趣模型。新兴趣模型仍然使用传统的词频法来衡量某个用户的兴趣,但引进了词条新鲜度概念,用户兴趣用三元组表示(兴趣词条、兴趣权重、词条新鲜度),词条新鲜度对兴趣词条的更新提供了更加可靠的依据。用户兴趣模型的建立和更新通过基于记忆观察的学习机制、接受反馈的机器学习机制、ID3算法的归纳学习机制三种机器学习方法。信息搜索Agent通过查询代理与Internet搜索引擎的连接,既可实现元搜索,又可以在返回的网址较少或不满足用户的要求时,使用自身搜索工具Robot在网络上自主搜索。同时搜索算法从查询代理返回的网址出发进行搜索,减少了搜索范围,加快了搜索速度。另外,Robot采用深度受限并能动态调整深度的算法搜索网络信息。一方面由于深度受限,搜索不会陷入到无限长的超链中,另一方面由于深度的动态调整,它能在没有相关信息的链上快速结束,而在相关信息多的链上深入搜索,以避免有用信息的丢失。在保证搜索质量的同时,加快搜索的完成。信息过滤Agent根据用户已有的信息资源分析用户喜好,采用向量空间法进行信息过滤。三个模块密切协作,从而实现了网上信息的个性化、主动性、智能性检索。