聚焦爬行相关论文
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚......
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计......
将Web爬行看作执行序列动作的过程, 结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方......
介绍了网页分析算法HITS算法,并对HITS算法进行改进,提出了一种基于超链接和内容相关度的网页排序算法VHITS算法。VHITS算法引入向量......
爬虫是一类网络信息采集系统,它从一些给定的URL(称为种子URL集合)出发,通过下载URL对应的网页、分析页面内容、并跟随其中的链接来......