论文部分内容阅读
面对Internet上的信息海洋,人们利用搜索引擎往往难以找到自己真正所需的信息和知识。Web信息挖掘技术可以有效地解决如何在异质、分布的Web上快速、有效地发现资源和知识,可以弥补搜索引擎的不足。 本文的研究目标是帮助用户在网上进行个性化信息的搜集和挖掘。本文针对当前搜索引擎输出结果太多不能准确表达用户需求的问题,在对Internet信息检索的发展历史和现存的问题进行分析,以及在研究Web信息挖掘技术和智能Agent技术的基础上,提出了一种基于智能Agent的Web个性化信息检索系统,并分析了在Web信息服务领域引入智能Agent技术实现Web个性化信息服务的理论可行性、优越性,着重对其总体思路作了论述,对其系统设计与建模作了初步探索。围绕该模型的构建和软件实现,本文的主要工作和创新有: 首先,所提出的模型系统采用多Agent体系结构,面向特定的用户。在该系统模型中同时表达了文档和用户两种信息描述模型。文档是信息处理的对象,文档模型的建立是特征提取、文档过滤等智能信息处理的基础;用户模型则体现用户的兴趣和意图,用于用户兴趣的表达和挖掘。 其次,在信息检索Agent中,研究了文本特征选取和特征匹配问题。系统由检索Agent根据用户模型在Internet上搜集文档和信息。分析、过滤Agent对所搜集到的网页进行分析,抽取文档特征,形成文档的结构化表示。另外,系统还可以按照用户的要求,对其感兴趣的部分站点,按照用户设定的检索周期,自主地从WWW上检索信息,把符合用户兴趣的最新信息按照用户预定的方式及时提交给用户。通过系统的主动信息服务功能减少用户检索次数,是提高检索效率的一个较好的解决方法。 再次,研究了学习Agent自适应地调整用户模型。学习Agent的学习过程,既是用户相关性反馈过程,也是用户兴趣挖掘过程。系统通过记录用户浏览行为、获取用户对文档的反馈,以及从网上搜集到的文档作为学习的“原始强化信号”,从而实现自适应调整用户模型。 最后,构建了一个基于智能Agent的Web个性化信息检索系统。从总体上描述了该模型框架的功能、工作流程,说明了各类Agent在系统中的结构、安排与作用,并对模型结构、算法进行了分析设计。并通过该原型系统的实现与现有信息