论文部分内容阅读
研究如何准确快速获取Deep Web网络资源.提出了一种基于主题的Deep Web聚焦爬虫框架,该框架主要包含了爬行模块、网页分类模块、链接解析模块和查询接口判别模块4大模块.实验结果表明,该爬虫的爬行策略取得了很好的效果,大大提高了效率,可以很好地适应特定主题的结构化Deep Web信息采集.