【摘 要】
:
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的
【机 构】
:
南京大学信息管理系、多媒体信息处理研究所
论文部分内容阅读
本文详细叙述了一个用于信息检索的基于P2P的分布式爬虫系统的设计和实现过程。系统基于锚文本上下文进行主题相关性判定,采用P2P式的分布式结构,充分利用其动态增加新结点的特性来动态地扩展系统的规模,提高系统的整体吞吐能力,以满足现在和将来的用户对日益增长的大数据量检索需求。实验结果表明,可根据用户给定的主题对网页链接上下文进行主题相关性判定以引导爬虫的爬行路径,能够有效地获取相关主题信息。
其他文献
<正>一、引言:将思辨性阅读引入小说阅读教学现代文阅读教学是中学语文阅读教学的重要组成部分。无论是从课堂教学的课时安排,还是从高考试卷的题型分布来看,现代文阅读的重
如何做好市场价格持续﹃低走﹄条件下的物价工作●方彦改革开放以来的物价工作实践表明,物价工作的地位、作用及其对国民经济发展的重要性,总是和物价形势的变化紧密相联。当发生通
以第三代移动通信技术领域为例,本文从17864项专利文献的标题和摘要中抽取了技术术语,之后对其进行了技术坐标视角下的共词分析。在卡龙的技术子簇的构建方法基础上,运用饱和值
目的探讨精细化护理对胃肠道手术患者心理状态、胃肠功能及血清炎性因子水平的影响。方法选择2018年2月~2019年12月我院治疗的胃肠道手术患者80例作为研究对象,随机数字表法
目的探讨人参皂苷Rb1是否可以增加脑缺血再灌注损伤小鼠脑梗死半暗带区LncRNA Malat1的表达。方法将30只C57/B6小鼠按随机数字表法分成假手术组、模型+生理盐水对照组、模型+
近年来排序学习方法以其优异的性能成为信息检索领域研究的一个热点。排序学习方法应用机器学习方法训练排序模型用于文档相关性排序,取得了良好的实验结果。在多种排序学习模
基于语言模型的检索方法为信息检索领域开辟了一个很有前景同时也具有相当挑战性的方向。与传统检索模型相比,语言模型不仅具有良好的理论基础,而且非常灵活,经过简单的变换很容
随着各种本体构建方法和诸多实验本体的相继涌现,以跨本体通信、跨本体协同为目的的本体对应相关研究在近年来受到国际学术界的普遍关注.为了最大限度复用现有本体,解决本体
针对X射线自支撑透射光栅在多能点单色成像光栅谱仪中的应用,采用电子束和光学匹配曝光、微电镀和高密度等离子体刻蚀技术,成功制备了周期为500nm、金吸收体厚度为350nm、占空
目的研究高血压脑出血的发病是否与同型半胱氨酸、尿酸的变化有关。方法连续收集2018年1月~2019年10月就诊于天水市第一人民医院神经内一科的高血压脑出血患者115例和高血压