高效的Web信息采集策略的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：zap2050zap

【摘要】

：

信息采集系统作为各种Web信息服务的基础和重要组成部分，正广泛应用于搜索引擎、站点结构分析、页面有效性分析以及Web图进化等多种应用和研究当中。因为Web中的信息量巨大，并

【作者】

：

张雨

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

Web信息采集策略负载均衡主题过滤模块向量空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息采集系统作为各种Web信息服务的基础和重要组成部分，正广泛应用于搜索引擎、站点结构分析、页面有效性分析以及Web图进化等多种应用和研究当中。因为Web中的信息量巨大，并且具有动态、异构、高重复、高链接以及多语种等特性，使得信息采集面临着巨大的挑战。　　并行采集是提高采集效率的有效方法。本文对如何设计一个良好的分布式采集框架进行了深入研究，并实现了一个健壮的、具有高可扩性的分布式信息采集系统—InsunSpider。为了降低通信模块设计的复杂性，本文采用网络文件系统—NFS来实现采集节点间的通信，将通信交由操作系统去处理。同时，这种通信策略还降低了节点间的通信带宽代价。为了在运行期间，无论硬件故障还是人为干预造成了系统结构变化（即节点数目的增减）都不会影响系统的性能，本文采用两阶段映射模型实现了系统的动态可配置性。系统中实现了一个主控端来对采集结点进行监控，当系统规模发生变化时，主控会对各采集节点的一些数据进行调整，如逻辑映射表、Hash表等。　　为了实现对网页的快速更新，本文提出了一种高效的增量式采集算法。该算法以“高灵敏”网页的特性和更新的局部性为依据，将更新的关注点集中到能够体现更新的那部分页面，提高了增量采集的效率。实验证明，该算法特别适用于限定到新闻类网站的中小规模的增量信息采集。　　此外，本文还对快速的主题过滤算法展开了相关研究，设计并实现了一个基于向量空间模型的主题过滤模块。　　通过对实验结果的分析，证明了本文所实现的信息采集系统InsunSpider具有高效、高可扩展、高可配置、负载均衡等特性。目前，本系统正应用于为实验室的检索系统和问答对抽取系统等提供数据服务。本系统具有广阔的应用前景和实用价值。

其他文献

基于Web GIS的校园房产管理系统的研究与设计

随着GIS(地理信息系统)理论的发展成熟,其应用领域不断扩大,将GIS应用于校园房产管理是各高校实现?数字化?校园建设的重要组成部分。由于房产信息不仅包括属性数据,而且还包

学位

GISWeb GISAutodesk MapAutodesk MapGuide房产管理

集群系统作业调度优化技术研究与实现

集群计算系统具有低成本、高性能的特性,提供了强大的批处理和并行计算能力,代表了高性能计算机发展的主流方向。在该类系统中,通过提高硬件性能并不能完全满足用户复杂多样

学位

集群计算多维QoS作业调度LSF

足球机器人系统中无线通讯网络和主板系统设计

机器人足球是一个极富挑战性的高技术密集型竞赛项目,而足球机器人性能的优劣将直接决定着一个团队的竞技水平的高低。随着科学技术飞速进步,越来越多的更为先进的技术应用到

学位

ZigBee技术机器人足球双向通讯嵌入式操作系统

嵌入式RFID识读器设计

射频识别技术采用大规模集成电路技术、识别技术、计算机及通讯技术等先进技术,已经在物流、制造、公共信息服务等众多领域开始应用并大幅提高管理与运作效率。同其它的识别

学位

射频识别识读器数字信号处理防冲突算法

数据仓库中物化视图的增量维护研究

数据仓库拥有海量的数据,对其进行复杂查询速度往往较慢。物化视图作为一种有效地手段,通过预计算的方法,能够有效地提高查询速度,及时响应用户请求。为了能保证与数据源的一

学位

数据仓库物化视图聚集查询增量维护

一种SIP应用层安全机制的设计与实现

随着Internet的飞速发展,人们对数据、视频、音频业务相互融合的多媒体通信的需求不断增长。VoIP技术作为融合中的主要支撑技术,正成为人们关注的热点。SIP协议是目前广泛使

学位

SIP协议安全机制逐跳安全端到端认证

AGPS定位平台GGSN接口模块的设计实现及平台的改进

AGPS(Assisted-GPS)技术是将GPS卫星导航与移动通信融合形成的技术，其基本思想是将终端的工作简化，将卫星扫描和位置计算等最为繁重的工作从终端侧转移到网络侧的定位服务器完

学位

AGPSLBSSUPL定位技术

基于图像技术的可自动调节高度睡枕系统研究

睡眠对人体健康至关重要，而选择合适的睡枕能够有效地改善睡眠质量，相反，不合适的睡枕不仅影响睡眠，还会引起颈椎病、头疼、阻塞性睡眠呼吸症等多种病症。长期以来，人们一直使用单

学位

可调节高度睡枕红外图像睡姿识别人脸检测人耳检测AdaBoost

基于网络的标准口语远程教育平台的研究与实现

随着现代信息技术的飞速发展和广泛应用，将网络、计算机、数字音视频等多媒体类先进技术应用在标准口语平台的建设中，创建一个随时、随地进行个性化学习和标准口语训练的环境，为

学位

标准口语远程教育网络教育音频处理视频处理实时交互

网页在线聚类的研究与实现

随着网络信息的爆炸式增长,搜索引擎日益成为信息时代不可或缺的工具。当前主流的搜索引擎主要是以与用户搜索的相关度来排序返回搜索结果的,用户往往需要花费较长的时间从结

学位

网页聚类在线快速有向概率图算法模型

高效的Web信息采集策略的研究

与本文相关的学术论文