论文部分内容阅读
随着大数据时代的来临,互联网上空间数据的来源越来越多、规模越来越大、更新速度越来越快,采用单机网络爬虫获取Web空间数据由于受到抓取覆盖率和抓取时间性能瓶颈的限制,难以保证抓取数据的及时性和全面性。因此本文研究了基于分布式网络爬虫的Web空间数据获取方法,不是通过增加单个爬虫系统的负荷而是通过增加更多的爬虫系统成员来提高数据获取的性能和效率。同时设计和实现了基于分布式网络爬虫的Web空间数据获取原型系统,通过对原型系统进行测试证实了本文所述方法的有效性。