引入主题链接块因子的候选链接搜索策略研究

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:FSFASF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导致"主题漂移"问题是关键。针对链接的锚文本较短小,不能很好地表明链接指向页面与主题的相关性的问题,论文在Shark-search算法的基础上引入相关链接块权重,利用块中子链接的锚文本进行块的权重计算,通过对比实验验证了改进算法可以更好地区分处于同一页面中的链接的相关度评分,提高爬虫的查准率,同时缓和"主题漂移"的问题。
其他文献
毛泽东在提出“马克思主义中国化”的主张之后,又提出“中国革命丰富的实际马克思主义化”。这是两个相关的提法.它们不仅展示了理论与实践之间的双向运动,而且也展示了把实践经
在落实“十二五”规划的过程当中,应认识并充分发挥金融的作用。原因有四:稳定有效的金融体系是宏观经济的必要条件;金融在扩大内需,促进消费方面大有作为;金融可以刺激创新和新兴
一、农民工医疗保险制度存在的问题(一)农民工医疗保险统筹层次低,各地制度不统一。近年来,各地探索建立关于农民工的医疗保险制度,一些探索和实践已取得一定的进展。但是,由于各地
曼德尔·克莱顿在其《英国民族性格》一书中曾写道,“没有任何一个民族把它的过去如此完整地带人了现代生活”。实际上,这句话未尝不可以用来描述美国人与历史的关系。众多
利用变分法研究了时域和频域的控制技术-同步幅度调制器和固定频率滤波器-对色散管理孤子系统的作用。得到了计算定时抖动的解析表达式,利用得到的公式,可以计算不同控制参量时
在三反射镜光学系统的几何光学理论的基础上,设计了一个焦距f=1000mm,相对孔径D/f=1/4,视场角2w=3°的离轴非球面三镜反射系统,讨论了优化方法和各参量对系统结构和像差的影
提出并成功研制了一种具有功能复用的新型的多功能光隔离器结构,对其进行了传输特性性能理论分析,分析表明,该器件具有与单尾纤光隔离器相同的低插入损耗,高隔离度等特性,实
2010年第1期《学习与研究》刊发温家宝总理在纪念国务院参事室成立60周年座谈会上的讲话指出,要提倡独立思考、敢讲真话的精神。曾任中央文史研究馆副馆长的陈寅恪先生说过,学
根据光纤的模式匹配理论计算了给定条件下光纤探头的模式匹配半径,以此匹配半径为基础分析了激发光在锥型光纤探头中的光线传输轨迹.结果表明,在此条件下如不对光纤探头的耦合光
党的十七届三中全会《决定》,为推进新形势下的农村改革发展进一步指明了方向。学习贯彻《决定》,认真总结农村改革30年的经验,进一步深化改革,推进现代农业发展和社会主义新农村