基于Agent的中文多元搜索引擎的研究和开发

来源 :北京工业大学 | 被引量 : 5次 | 上传用户:waich19870625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从WWW1991年诞生以来,已经发展成为拥有近亿用户和约400万站点,8亿页面的巨大分布式信息空间,而且其信息容量仍在以指数形式飞速增长。面对如此众多的Web服务器与其上面丰富的Web信息资源,如何有效快捷地进行Web信息获取变的越来越重要。 本文结合所承担的国家“九五”重点科技攻关计划(96-743-01-01-05)专题“网络信息获取前后服务处理技术”和“金桥”工程项目的“ Web信息获取系统”开发任务,采用Agent技术,对多元搜索引擎技术进行了研究。论文的主要工作包括以下几个方面: (1)分析研究了当前Internet上信息的特点以及搜索引擎技术的发展趋势,对目录式搜索引擎、机器人搜索引擎、多元搜索引擎等搜索引擎的工作原理做了综述,并根据搜索引擎评价指标,分析了现有搜索引擎的优势与不足。 (2)引入了人工智能中Agent的概念,并对Agent进行了明确的定义,进而对Agent的组成、功能和基本结构进行了研究,在Agent基础上对多Agent协作系统的特点、分类和交互进行了研究。 (3)设计并实现了一个基于多Agent协作系统(MAS)的多元搜索引擎WebHunter的原型系统。该系统的基本构成单位是Agent,主要由信息前处理层、查询代理层和信息后处理层组成。 (4)详细分析了每个搜索引擎的查询语法,尽可能地抽取大多数搜索引擎共同支持的语法格式,采用SOIF(Summary Object Interchange Format)规范,形成了WebHunter的语法规范。 (5)提出了一种通过多代理协作对多元搜索引擎中所含有的搜索引擎进行选择的方法,通过多个Agent的协同工作,并配以信息库的支持,可以使多元搜索引擎在对查询结果质量影响较小的基础上,避免对其中的全部搜索引擎都发出查询请求,从而达到减小资源消耗的目的。 (6)采用并行工作的搜索引擎代理完成与选定搜索引擎的交互,缩短了系统的响应时间。 (7)描述了现有系统的查询结果排列算法,并在此基础上,提出了一种简单、有效的对相关度进行归一化的排序算法,从而提高了系统的查询效率。
其他文献
复杂性状的适应性进化一直是植物分子进化研究领域的重要研究方向。CBF/DREB信号通路在植物适应冷、盐害等逆境胁迫中起着重要作用,并且可能广泛存在于各类植物中,这为验证逆境
学位
青藏高原是世界最高、最年轻的高原,是气候变化的敏感区和生态脆弱区。高寒草原是青藏高原主要的植被类型之一,藏北地区高寒草原分布面积大,退化严重。在过去50年间青藏高原整体
本文通过对荣华二采区10
期刊
该文围绕"数字调制信号激励的非线性电路、系统的分析"课题,在数字调制信号非线性仿真器的开发、功率放大器副谐波负载牵引特性分析、非线性系统有记忆系统级模型建模、CDMA
钙离子参与调控气孔运动和气孔导度的变化,从而能够直接或间接影响到植物的水分利用效率。钙通道蛋白在植物细胞中广泛存在,主要负责植物体内的钙离子转运及钙信号转导途径。研
学位
语音识别技术从理论研究到产品开发,是一项公认的极具挑战性和市场价值的工作,具有很强的理论研究意义和实际应用价值。随着DSP技术的飞速发展,其系统功能、数据处理能力以及
稀土资源是国际公认的战略性资源,由于其独特的物理和化学性质,被广泛的应用在新能源、新材料、节能环保、航空航天和电子信息等领域,被誉为“工业维生素”和“工业黄金”。作为
期刊
用真空热蒸发沉积的方法制备了M—REO(M=Au、Ag,RE=La、Nd、Sm)等贵金属纳米粒子—稀土氧化物介质薄膜,RE—BaO(RE=La、Nd、Sm)等稀土纳米粒子—BaO介质薄膜,Ag—RE—BaO(Re=
利用人工神经网络进行产优化在集成电路、化工、制造等许多工业领域得到了成功的应用.我们总结了神经网络系统建模方法以及得到广泛采用的优化算法,并分析指出我们前阶段的优