论文部分内容阅读
互联网数据根据是否能被搜索引擎所索引分为浅层网络和深层网络。深层网络相比浅层网络具有更大的数据量和更高的质量,高效的定位深层网络数据源是挖掘隐藏在深层网络背后信息的前提。由于Web本质是动态变化的,不断有新的数据源加入和旧的数据源撤出,以及查询表单稀疏分布的特点,现有的深层网络数据源发现系统会访问大量无关页面,导致效率低下。 基于两阶段的深层网络数据源发现系统(SmartCrawler),将数据源发现过程分为站点定位阶段和站内搜索阶段,并具有自适应、增量式和高效等特点。站点定位阶段借助搜索引擎反向爬行已发现的深层网络站点来收集站点数据,保证站点队列有充足的候选数据;采用自适应的站点排序机制实现优先选取潜在深层网络站点以及站点分类器来实现聚焦爬行。站内搜索阶段采取平衡的优先访问策略,在优先访问潜在指向含查询表单页面同时,通过设计树型结构来保证站点内部的覆盖范围。站点和链接优先选取策略采用学习智能体方法,通过自动抽取爬行过程中发现的深层网络站点和表单路径特征,并构建相应的特征空间作为站点和链接排序的依据,能够自适应的调节爬行过程中站点和链接的选取。 为了验证两阶段爬虫的性能,通过实现三种不同策略的爬虫,在8个具有代表性的领域,分别访问100,000个页面。测试结果表明,SmartCrawler能够有效提高爬行效率,在相同条件下能够收获更多的查询表单和覆盖更广的深层网络站点。自适应学习机制可以有效学习到新的特征,指导爬行过程中站点和链接的选取。