论文部分内容阅读
聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息,与通用爬虫不同的是,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
本文设计了聚焦网络爬虫系统的四个模块的进行设计研究,系统结构基于Heritrix架构,采用广度优先爬行策略和多线程调度策略,实现了用户对于特定信息的检索。
本文设计了聚焦网络爬虫系统的四个模块的进行设计研究,系统结构基于Heritrix架构,采用广度优先爬行策略和多线程调度策略,实现了用户对于特定信息的检索。