使用联合链接相似度评估爬取Web资源

来源 :计算机学报 | 被引量 : 0次 | 上传用户:mym890419
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接
其他文献
目的为减轻并发大量腹水的肝硬化患者在接受腹腔穿刺术时的痛苦,避免腹腔穿刺术后腹水外漏的几率,将传统的腹腔穿刺术的进针法改良为"Z"形进针法。方法由接受过以上2种穿刺方法
探讨危重产妇剖宫术后的营养支持方法与效果。方法回顾性分析32例危重产妇剖宫产患者的营养支持方法与效果。结果患者营养支持标准为:主粮450g,动物类食品400g,蛋类150g,牛奶2
酒脱和婉约都是一种清秀隽永的表现.“千山独行人自在.落木无边心坦然”就是这样一种韵味.胸有成竹的玩家,当然有一路逍遥派的折梅手了.
服务组合是面向服务计算环境中实现价值增值的有效途径.现有研究多关注于顾客价值的提高,而对提供服务组合方案的服务提供者或代理商的价值缺乏充分考虑.一方面,在服务级别协
LR(k)文法能描述所有确定型上下文无关语言,广泛应用于各类分析器生成器中.传统的LR(k)文法断点调试方法仅支持在产生式右部末尾设置断点(后文简称尾部断点),不支持在产生式右部中
由于不确定图蕴含了指数级的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高效运行.文中提出了一种不确定图数据集上的基于随机游走的K极大频繁
目的探讨使用彩超诊断女性不孕症的临床意义。方法对本组116例不孕患者经阴道彩超监测,然后将其按受孕、未受孕妇女分组,统计各参数值,并对比分析。结果受孕组女性可见卵泡正