论文部分内容阅读
近年来,网络信息检索技术以及与之相关的互联网搜索引擎技术得到了长足的进步,但局域网信息检索技术和水平却没有相应的提高,很多用户仍在采用基于文件共享的信息检索方式。造成这种现象的原因,主要是因为局域网的主机之间,甚至主机上的资源之间存在着明显的异构性,使得很多在互联网上行之有效的信息检索技术在企业、学校、政府机构等组织的内部网络中难于发挥作用。智能Agent是代表用户、以主动服务的方式完成一组操作的计算实体。由于Agent具有智能性、移动性、跨平台运行等特征,它可以在网络上灵活机动地访问各种资源和服务,还可以就完成特定任务同其它智能Agent进行协商和合作,甚至可以迁移到网络的其它主机上去执行任务。因此,将智能Agent技术和方法引入网络信息检索,具有独特的优势。这样,在逻辑上可以将网络看作一个巨大的信息体,而不必过多关心信息的组织形式,从而实现高效、智能的信息服务。本文将Agent技术和方法与信息检索技术进行结合,设计并实现了一种基于Agent的局域网信息检索系统,完成了对整个系统架构的设计,以及有关的开发和测试工作。本文主要工作及创新点如下:(1)对局域网信息检索的相关技术进行全面和较深入研究,提出了一种基于Agent的局域网信息检索模型。(2)利用多Agent系统开发平台JADE,构建了信息检索系统的分布式框架和运行环境。(3)通过在Agent实体内部集成Lucene软件包,设计实现了网内资源的全文检索系统。在此基础上,提出了一种通用的页面解析框架,实现了对不同格式文档的解析。(4)分析并改进了基于正向最大匹配算法的中文分词方法,提高了信息检索的速度和准确率。(5)结合Agent特性,实现了关键信息抽取,有价值信息自动推荐等个性化服务。