论文部分内容阅读
为了减少传统Web采集系统网络资源的耗费,并增强其个性化支持,结合用户兴趣向量模型,将元搜索引擎技术应用到Web信息采集领域中,设计一个基于元搜索引擎的个性化Web信息采集系统。该系统通过调用成员搜索引擎发现与用户兴趣相关的目标Web站点,通过爬虫程序采集目标站点上的Web页面内容。在发现兴趣站点方面更具有针对性,能有效减少爬虫的数量。重点研究了系统的体系结构、个性化Web采集的工作流程,最后给出了该系统的应用场合。