融合链接结构的主题爬虫算法

来源 :华侨大学学报(自然科学版) | 被引量 : 0次 | 上传用户:szf_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过分析基于内容的链接选择Best-First算法,引入能够体现链接价值的HITS(hyperlink induced topic search)算法,提出了新的链接选择策略.将两种算法相结合,新的爬虫不仅仅考虑页面内容,同时将链接结构加入进来,使得在下载的过程中能够保证主题相关性和权威性,缓解爬虫在爬行阶段的"近视"现象.结果表明:新的爬行策略比单一的Best-First算法具有更好的性能表现.
其他文献
通过分析小型仿人机器人的特点和应用潜力,明确小型仿人机器人作用和意义。为解决现有仿人机器人有线或无线监控中遥操作距离短的问题,实现仿人机器人的远程视频监控,分析仿
随着社会的不断进步和发现,近几年以来,国家和政府也认识到了教育的重要性,随之增加了对教育的投资。我们的教育也在随着社会的发展与之共同进步,从原先的应试型教育也在逐渐
一段时间以来,虚词不“虚”已为许多语言学家和逻辑学家们所注意到。这导致我们将重新看待词义和概念的关系问题。本文试图通过在翻译过程中词义的演化论证两类不同性质的虚词
近年来,随着我国经济的快速发展,大量的高速公路不断兴建。在软土地基上修建高速公路时,提高路基的稳定性、控制路基沉降是关键的工程技术问题,因此,工程上对软基路堤沉降量
食品质量问题一直以来都是社会关注的热点话题,食品质量直接影响到人们的身体健康乃至生命安全.自"三聚氰胺"奶粉事件曝光后,广大市民对乳品质量安全的关注度变得更高.为了孩
<正>进入高三,如何改变课堂模式实现高效复习是摆在所有高三教师面前的老大难问题。元认知理论认为学生的元认知就是个体对自己认知的认知,对自己认知活动的自我意识、自我评
介绍了建设工程监理中组织协调工作的定义及其重要意义,在此基础上,从系统方法的角度对建设工程监理中的组织协调进行了分析和探讨,阐述了监理组织协调中应注意的问题,以期为
目前的机械产品创新设计较以前取得了长足的进步,但仍然存在很多需要改进的地方。而TRIZ的引入为机械产品创新设计发展提供了理论指导。
<正>党中央有关部门财务部门,国务院各部委、各直属机构财务部门,全国人大常委会办公厅机关事务管理局,全国政协办公厅机关事务管理局,高法院行装局,高检院计财局,有关人民团
为了提高大面积冬小麦农田产量快速估算的准确率,选取Landsat 8 OLI卫星遥感数据,计算归一化植被指数NDVI、比值植被指数RVI、绿度植被指数GVI、增强植被指数EVI,分别建立4种