论文部分内容阅读
爬虫是搜索引擎的一个重要组成部分,如何有效地保证本地镜像的新鲜度成为爬虫研究的一个热点问题。根据网页更新符合泊松过程的特点,提出一种及时同步本地数据库与远程网站的方法。通过保存有关网页更新情况的历史记录,统计出各个网页的更新频率,并以此确定爬虫对该网页的访问频率。通过实验证明基于泊松过程的爬虫调度策略的可行性。