论文部分内容阅读
本文在深入分析网页信息搜集、文件处理、中文分词以及索引模块的基础上,针对目前专业搜索引擎热点研究的专业网页的定向获取问题,设计了新的专业搜索引擎系统。本系统利用人工智能自学习以及Agent技术,通过对网站进行相关度评价,实现了专业网页的定向获取,同时对分词部分和索引部分架构进行了改进,实现了各子系统之间的协同工作。 本系统建立了系统维护评价系统的知识库,知识库存放了在已知Internet空间化工专业信息的分布情况。系统初次启动时,分析专业词汇在网站中的分布,从而获取得知该网站与化工专业的相关度。并且在以后的信息搜集过程中,以知识库中的信息为依据对站点进行排序,使网络机器人总是优先爬行专业相关度高的网站,这样可以确保专业网页的定向获取。 该系统利用了Agent技术,对信息搜集系统进行了改进。改进后的系统,拥有一套应用层的协议系统,确保运行于不同物理位置的信息搜集系统和知识库间的信息交换的可靠性和安全性。系统搜集的信息也可以保存在本地。与目前的信息搜集系统相比,节省了大量网络资源。