论文部分内容阅读
描述了Paperopen项目中OA期刊论文蜘蛛的总体设计方案、蜘蛛调度机制、论文全文文件命名原则、数据库设计以及页面爬取和蜘蛛调度需要注意的问题,提出通过插件技术可解决一些杂志社网站存在的论文全文链接转向问题。Paperopen采用deep web技术能够获取隐藏在数据库后面的论文数据。采用该方案设计的蜘蛛工作正常,每天可爬取论文1万篇左右,大大提高执行效率。