分布式Web信息采集关键技术研究

被引量 : 0次 | 上传用户：cj258399542

【摘要】

：

近20年来,为了应对Web上信息量的不断增长以及信息更新频度的不断提高,Web信息采集系统不断扩大自身规模,其系统结构也从单机到多机,从集中式到分布式逐步演进。至今,分布式

【作者】

：

许笑

【发表日期】

：

2011年期

【关键词】

：

Web 搜索引擎分布式信息采集网络坐标网络距离内容寻址网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近20年来,为了应对Web上信息量的不断增长以及信息更新频度的不断提高,Web信息采集系统不断扩大自身规模,其系统结构也从单机到多机,从集中式到分布式逐步演进。至今,分布式系统结构已经成为构建Web信息采集系统的首选方案,而由分布式系统结构所引申出的Web划分问题、任务调度问题和节点协同问题已经成为构建分布式Web信息采集系统的关键技术问题。对这些关键技术问题的深入分析与研究对于提高搜索引擎系统的性能乃至整个Web的可访问性具有重要意义。本文在总结前人工作的基础上,针对分布式Web信息采集系统的若干关键技术问题进行了深入研究。首先,现有的分布式Web信息采集系统乃至分布式搜索引擎系统都缺乏对系统构建中的最根本要素--系统成本的量化评估,为此,本文提出了一个较为完善的包括分布式Web信息采集系统在内的分布式搜索引擎的成本模型,并利用该成本模型对若干种构建搜索引擎系统的设计方案从系统成本、系统规模和查询响应时间等角度进行了详尽的理论分析。我们发现,由广域网分布式采集系统和多机群索引系统组成的半广域网搜索引擎系统相对于其他搜索引擎系统具有相对较低的成本,同时能够较好的兼顾对用户的服务质量。之后,针对在分布式环境下如何能够有效降低网页下载时间这一问题,本文对面向网络距离的Web划分算法进行了研究,给出了适用于分布式采集系统的网络距离的度量标准;基于网络距离和网络坐标系统,我们提出了一种新的Web划分算法,并通过实验验证了其在提高系统吞吐量方面的优越性。针对广域网分布式Web信息采集系统,本文分别在任务调度和节点协同方面提出了若干优化方法:针对Web划分方法在动态调度中的不足,提出了基于任务转发的动态负载均衡算法,避免了采集节点的忙闲不均现象,进一步提高了全系统的吞吐量;针对广域网分布式Web信息采集系统中节点间通信量负载较重的问题,提出通过对Web主机之间链接关系建立坐标模型的方法,实现面向链接关系的Web划分,从而降低了采集节点间通信量中比重最大的链接交换的通信量。最后,为了兼顾分布式Web信息采集中的健壮性、效率和成本,本文提出了一种基于内容寻址网络的广域网分布式Web信息采集系统,该系统能够利用网络上分布在各处的独立的计算资源,组建一个能够完成Web信息采集功能的覆盖网络,从而为这三个问题提供了有效的解决方案:一方面,内容寻址网络这种P2P协议的采用,使得系统可以随着Web一起扩展和壮大;另一方面,Web划分大幅缩短Web信息采集时间,提高了系统的吞吐量及信息更新频率;同时,根据我们提出的成本模型分析,该系统还能够降低系统成本。

其他文献

借助人才测评技术推进人才招聘专业化

<正>当前我国经济社会发展中比较突出的一个问题是人才难识、人才难求。借助现代测评技术,建立专业化人才招聘和人才评价机制,是解决企业人才难识、人才难求问题的有效手段,

期刊

人才测评技术人才招聘人岗匹配专业化

试论检察人员分类管理

检察队伍职业化是新形势下进一步深化司法体制改革的客观要求,也是历史发展的必然趋势。当前,我国对检察队伍职业化建设仍然处于探索阶段,结合目前检察工作实际,检察机关应从

期刊

检察官检察队伍分类管理

工程咨询服务质量评价模型及方法研究

我国尚缺乏针对性的工程咨询服务质量评价体系。就此,构建由环境质量、交互质量及结果质量三个主维度,品牌声誉、好感性等十个子维度以及从可靠性、响应性、移情性三个方面设

期刊

服务质量评价模型工程咨询模糊评价

小型行走式喷雾系统在温室双孢菇灌溉中的应用研究

近几年来,双孢菇在甘肃省武威市温室塑料大棚种植中得到了大面积的推广,仅武威市谢河镇谢河村双孢菇培育基地种植面积约为200亩之多,然而,其灌溉方式仍采用传统固定式喷灌系

学位

温室双孢菇喷雾系统灌溉土壤水分喷洒均匀度

现代教育技术条件下高校教师角色转换的策略研究

本文首先分析了高校教师传统角色的局限性；然后提出由于现代教育技术改变了高等教育的目标、观念和课程。改变了知识的传播方式及其对高校师生关系的影响等，这些影响将改变人们

期刊

教育技术现代教育技术教师角色高校教师角色

工程质量政府监督系统架构及业务模型研究

面向市场监管和质量安全监管的政府监督需求,提出三个层次的工程质量政府监督信息系统架构。同时,以市场监管和质量安全监管为主要业务系统,以监管流程为导向,辅以地图系统、

期刊

工程质量政府监督系统架构市场监管业务模块

卵巢交界性浆液性囊腺瘤14例临床病理分析

<正>卵巢交界性浆液性囊腺瘤为低度恶性肿瘤,界于良、恶性之间,主要通过在盆腔、腹膜内种植进行扩散。其术前诊断的准确性不高,只能依据术中冰冻及术后常规病理石蜡切片做出

期刊

交界性浆液性囊腺瘤临床病理分析

不锈钢激光熔覆Fe60合金层的微观组织和性能研究

在SUS304不锈钢板表面进行了单道激光熔覆Fe60合金。通过金相分析、扫描电镜、能谱分析、显微硬度测定等手段分析了以不同激光扫描速度获得的熔覆层的宏观形貌、微观组织和硬

期刊

激光熔覆高铬铸铁微观组织显微硬度

大蒜茎尖脱毒体系的建立与病毒电镜检测分析

大蒜(Allium sativum L.)是一种重要的蔬菜作物,生产中主要靠鳞茎进行无性繁殖。大蒜在长期无性繁殖过程中,易感染和积累多种病毒,且广泛传播,造成种性退化,品质与产量降低。

学位

大蒜茎尖培养气生鳞茎病毒病原检测

科学种植管理让李子树结出“金果”

<正>俗话说,"一根筷子易折断",这用来形容重庆市开州区渠口镇毛坪村种植李子的旧况,恰如其分。这是怎么回事呢?原来早年毛坪土李子因口感佳,一直颇有名气,后来却因村民种植技

期刊

李子树专业合作社种植管理

分布式Web信息采集关键技术研究

与本文相关的学术论文