高效的Web信息采集策略的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zap2050zap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息采集系统作为各种Web信息服务的基础和重要组成部分,正广泛应用于搜索引擎、站点结构分析、页面有效性分析以及Web图进化等多种应用和研究当中。因为Web中的信息量巨大,并且具有动态、异构、高重复、高链接以及多语种等特性,使得信息采集面临着巨大的挑战。  并行采集是提高采集效率的有效方法。本文对如何设计一个良好的分布式采集框架进行了深入研究,并实现了一个健壮的、具有高可扩性的分布式信息采集系统—InsunSpider。为了降低通信模块设计的复杂性,本文采用网络文件系统—NFS来实现采集节点间的通信,将通信交由操作系统去处理。同时,这种通信策略还降低了节点间的通信带宽代价。为了在运行期间,无论硬件故障还是人为干预造成了系统结构变化(即节点数目的增减)都不会影响系统的性能,本文采用两阶段映射模型实现了系统的动态可配置性。系统中实现了一个主控端来对采集结点进行监控,当系统规模发生变化时,主控会对各采集节点的一些数据进行调整,如逻辑映射表、Hash表等。  为了实现对网页的快速更新,本文提出了一种高效的增量式采集算法。该算法以“高灵敏”网页的特性和更新的局部性为依据,将更新的关注点集中到能够体现更新的那部分页面,提高了增量采集的效率。实验证明,该算法特别适用于限定到新闻类网站的中小规模的增量信息采集。  此外,本文还对快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。  通过对实验结果的分析,证明了本文所实现的信息采集系统InsunSpider具有高效、高可扩展、高可配置、负载均衡等特性。目前,本系统正应用于为实验室的检索系统和问答对抽取系统等提供数据服务。本系统具有广阔的应用前景和实用价值。
其他文献
随着GIS(地理信息系统)理论的发展成熟,其应用领域不断扩大,将GIS应用于校园房产管理是各高校实现?数字化?校园建设的重要组成部分。由于房产信息不仅包括属性数据,而且还包
集群计算系统具有低成本、高性能的特性,提供了强大的批处理和并行计算能力,代表了高性能计算机发展的主流方向。在该类系统中,通过提高硬件性能并不能完全满足用户复杂多样
机器人足球是一个极富挑战性的高技术密集型竞赛项目,而足球机器人性能的优劣将直接决定着一个团队的竞技水平的高低。随着科学技术飞速进步,越来越多的更为先进的技术应用到
射频识别技术采用大规模集成电路技术、识别技术、计算机及通讯技术等先进技术,已经在物流、制造、公共信息服务等众多领域开始应用并大幅提高管理与运作效率。同其它的识别
数据仓库拥有海量的数据,对其进行复杂查询速度往往较慢。物化视图作为一种有效地手段,通过预计算的方法,能够有效地提高查询速度,及时响应用户请求。为了能保证与数据源的一
随着Internet的飞速发展,人们对数据、视频、音频业务相互融合的多媒体通信的需求不断增长。VoIP技术作为融合中的主要支撑技术,正成为人们关注的热点。SIP协议是目前广泛使
AGPS(Assisted-GPS)技术是将GPS卫星导航与移动通信融合形成的技术,其基本思想是将终端的工作简化,将卫星扫描和位置计算等最为繁重的工作从终端侧转移到网络侧的定位服务器完
睡眠对人体健康至关重要,而选择合适的睡枕能够有效地改善睡眠质量,相反,不合适的睡枕不仅影响睡眠,还会引起颈椎病、头疼、阻塞性睡眠呼吸症等多种病症。长期以来,人们一直使用单
随着现代信息技术的飞速发展和广泛应用,将网络、计算机、数字音视频等多媒体类先进技术应用在标准口语平台的建设中,创建一个随时、随地进行个性化学习和标准口语训练的环境,为
随着网络信息的爆炸式增长,搜索引擎日益成为信息时代不可或缺的工具。当前主流的搜索引擎主要是以与用户搜索的相关度来排序返回搜索结果的,用户往往需要花费较长的时间从结