基于集群计算的网络信息采集系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:szhzm4158
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息技术的不断发展,网络信息采集技术也日趋完善,作为许多Web信息服务的基础及重要组成部分,它被广泛的应用于搜索引擎、机器翻译等自然语言处理的各个方面。面对互联网上各种信息资源,有针对性的网络信息采集系统不断推陈出新,为获取网络信息提供极大的便利,同时,海量增长的网络信息也给信息的获取带来了新的挑战。对于统计机器翻译、机器辅助翻译以及翻译知识获取等研究来说,网络信息采集的任务是从海量的Web网页中发现大规模、含有多语言平行网页文本的网站中搜集平行网页文本,建设大规模多语言平行语料库,这也正是本文的研究目标。本文深入研究了一个针对大规模数据处理的分布式计算集群框架—Hadoop,并在此基础上设计并实现了一个可配置、可扩展的面向Web的分布式网络信息采集系统,此外,本文还设计并实现了一个增量式的网络信息更新采集系统,用来对双语平行网页进行增量式更新采集。本文首先介绍了网络信息采集系统的研究背景、当期的发展现状,并调研了当前非常热门的分布式计算集群框架—Hadoop,深入的理解其子系统Hadoop分布式文件系统(HDFS)及其重要的并行计算模型MapReduce的设计原理、体系结构等,分析了网络信息采集中URLs去重、任务调度、网页更新的识别等的关键技术,在此基础上设计并实现了面向Web的分布式网络信息采集系统和面向双语网站的增量式更新采集系统。最后通过对实验结果的分析,验证了本文提出的面向Web的分布式网络信息采集系统的高可配置、稳定、高可扩展等的特性,能够完成采集大规模、多语言网页的任务,对于面向双语网站的增量式更新采集系统,能够高效的完成对双语网站的增量式更新采集网页的任务,最终实现了课题的研究目标。
其他文献
分数阶和复数阶混沌动力学系统有着比整数阶系统具有更为丰富、复杂的动力学特性,同时还具有整数阶一样的随机性和不可预测性增加等优点。因此,近年来基于分数阶和复数阶微积分动力学系统的研究取得了不少的理论和实践成果。分数阶和复数阶混沌电路系统及其控制与同步、混沌保密通信等具有广阔的应用前景而受到人们的广泛关注。本文以简单的非自治耗散电路系统为研究对象,分析了分数阶和复数阶简单自治耗散系统的各种动力学行为,
由于生物医学文献不断增加,生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上,更重要的是在于生物文献中的知识发现和利用,从而增
互联网中存在着大量内容重复的网页。如何对大规模网页文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。高效的拷贝检测算法有非常广泛的应用,诸如搜索结果
传统的数据挖掘方法主要是找单个实体属性之间的关联,但是实际上实体之间的关系也具有很丰富的语义。基于图的方法很适合表示多关系数据。图中每个顶点代表实体,它们之间的边表
最近几年,移动对等网络(MP2P)逐渐成为了移动通信领域的研究热点,正引起学术界和产业界的关注,成为如今计算机和通信领域研究的热点之一。MP2P主要的研究方向是在无线移动网络环境
现有的物联网应用大多数都是局限于同一有限的区域内,应用相对比较固定,且同时由于缺乏灵活性而不便于统一管理多个物联网。随着物联网应用的普及,寻找一种应用更灵活、管理更便
人脸识别是一项挑战性的研究课题,以致得到了诸多不同学科领域研究人员的青睐。人脸识别技术广泛运用到国家公共安全、社会安全及商业等领域,如公安刑侦破案、监控、信息安全
蚂蚁个体智能十分低下,但整个蚁群却拥有惊人的智能,能够完成远远超出蚂蚁个体能力的复杂任务。通过对蚂蚁社会性行为的观察发现,蚁群通过一种媒介质机制来协调蚂蚁个体的行为,使
双语语料库的构建在自然语言处理、机器翻译、数据挖掘、词典编纂、多语言信息检索等领域具有重要的应用价值。当今互联网上存在大量双语互译文本,通过对互译文本的处理,建立实
基于数字高程模型DEM的数字地形分析已成为地理信息系统GIS的重要组成部分,广泛应用于测绘、遥感、城市规划、军事作战等各个方面,其中的特征地形要素分析研究尤为活跃。