论文部分内容阅读
WWW环球信息呈指数级增长,使WWW成为全球最大的信息系统,研究其中的信息搜索工具具有现实意义.Web Robot是搜索引擎中的核心部分,它从给定的统一资源地址开始分析,递归地搜索新的Web文档.作者论述了Web Robot的工作原理以及机器人排斥标准,用Java实现了Web文档的下载、超链提取、新超链的可用性判断和访问站点的安全性检查,为提高Web Robot的效率提出了2种解决途径,即采用Java多线程处理技术和集群式Robot.此外,给出了用Java多线程处理技术提高效率的算法,对网站建设和信息搜索