基于集群计算的网络信息采集系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：szhzm4158

【摘要】

：

随着Web信息技术的不断发展，网络信息采集技术也日趋完善，作为许多Web信息服务的基础及重要组成部分，它被广泛的应用于搜索引擎、机器翻译等自然语言处理的各个方面。面对互联网

【作者】

：

王文胜

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2012年期

【关键词】

：

网络信息采集双语网络信息更新 Hadoop HDFS MapReduce

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web信息技术的不断发展，网络信息采集技术也日趋完善，作为许多Web信息服务的基础及重要组成部分，它被广泛的应用于搜索引擎、机器翻译等自然语言处理的各个方面。面对互联网上各种信息资源，有针对性的网络信息采集系统不断推陈出新，为获取网络信息提供极大的便利，同时，海量增长的网络信息也给信息的获取带来了新的挑战。对于统计机器翻译、机器辅助翻译以及翻译知识获取等研究来说，网络信息采集的任务是从海量的Web网页中发现大规模、含有多语言平行网页文本的网站中搜集平行网页文本，建设大规模多语言平行语料库，这也正是本文的研究目标。本文深入研究了一个针对大规模数据处理的分布式计算集群框架—Hadoop，并在此基础上设计并实现了一个可配置、可扩展的面向Web的分布式网络信息采集系统，此外，本文还设计并实现了一个增量式的网络信息更新采集系统，用来对双语平行网页进行增量式更新采集。本文首先介绍了网络信息采集系统的研究背景、当期的发展现状，并调研了当前非常热门的分布式计算集群框架—Hadoop，深入的理解其子系统Hadoop分布式文件系统(HDFS)及其重要的并行计算模型MapReduce的设计原理、体系结构等，分析了网络信息采集中URLs去重、任务调度、网页更新的识别等的关键技术，在此基础上设计并实现了面向Web的分布式网络信息采集系统和面向双语网站的增量式更新采集系统。最后通过对实验结果的分析，验证了本文提出的面向Web的分布式网络信息采集系统的高可配置、稳定、高可扩展等的特性，能够完成采集大规模、多语言网页的任务，对于面向双语网站的增量式更新采集系统，能够高效的完成对双语网站的增量式更新采集网页的任务，最终实现了课题的研究目标。

其他文献

非自治耗散电路系统混沌及其应用研究

分数阶和复数阶混沌动力学系统有着比整数阶系统具有更为丰富、复杂的动力学特性，同时还具有整数阶一样的随机性和不可预测性增加等优点。因此，近年来基于分数阶和复数阶微积分动力学系统的研究取得了不少的理论和实践成果。分数阶和复数阶混沌电路系统及其控制与同步、混沌保密通信等具有广阔的应用前景而受到人们的广泛关注。本文以简单的非自治耗散电路系统为研究对象，分析了分数阶和复数阶简单自治耗散系统的各种动力学行为，

学位

分数阶复数阶混沌保密通信

基于机器学习的蛋白质命名实体识别和相互作用关系抽取的研究

由于生物医学文献不断增加，生物医学文本挖掘领域的相关研究逐渐活跃开来。生物医学文本挖掘的意义不仅在于生物信息的管理上，更重要的是在于生物文献中的知识发现和利用，从而增

学位

机器学习生物信息学文本挖掘命名实体识别蛋白质磷酸化多分类器集成

基于索引的分布式文本拷贝检测算法研究

互联网中存在着大量内容重复的网页。如何对大规模网页文档集进行高效的拷贝检测是长期以来一直受到研究者们关注的问题。高效的拷贝检测算法有非常广泛的应用,诸如搜索结果

学位

拷贝检测Map-Reduce

基于子图关联规则的链接预测研究

传统的数据挖掘方法主要是找单个实体属性之间的关联，但是实际上实体之间的关系也具有很丰富的语义。基于图的方法很适合表示多关系数据。图中每个顶点代表实体，它们之间的边表

学位

频繁子图挖掘流网络链接预测子图关联规则时序子图关联规则

基于资源索引扩散的MP2P资源定位方法研究

最近几年，移动对等网络（MP2P）逐渐成为了移动通信领域的研究热点，正引起学术界和产业界的关注，成为如今计算机和通信领域研究的热点之一。MP2P主要的研究方向是在无线移动网络环境

学位

移动对等网络资源连通结构传染病模型资源扩散资源索引置信度

面向物联网应用的无线远传协调器的设计与实现

现有的物联网应用大多数都是局限于同一有限的区域内，应用相对比较固定，且同时由于缺乏灵活性而不便于统一管理多个物联网。随着物联网应用的普及，寻找一种应用更灵活、管理更便

学位

物联网GPRS技术远程固件升级ARM嵌入式系统无线远传协调器

基于最近邻和径向基函数网络的人脸识别研究

人脸识别是一项挑战性的研究课题,以致得到了诸多不同学科领域研究人员的青睐。人脸识别技术广泛运用到国家公共安全、社会安全及商业等领域,如公安刑侦破案、监控、信息安全

学位

人脸识别奇异值分解主成分分析径向基函数网络最近邻分类

蚁群优化改进策略及算法研究

蚂蚁个体智能十分低下，但整个蚁群却拥有惊人的智能，能够完成远远超出蚂蚁个体能力的复杂任务。通过对蚂蚁社会性行为的观察发现，蚁群通过一种媒介质机制来协调蚂蚁个体的行为，使

学位

群体智能蚁群优化算法旅行商问题局部最优早熟收敛

基于粒子群优化算法的汉英语句对齐研究

双语语料库的构建在自然语言处理、机器翻译、数据挖掘、词典编纂、多语言信息检索等领域具有重要的应用价值。当今互联网上存在大量双语互译文本，通过对互译文本的处理，建立实

学位

自然语言处理双语语料库汉英语句对齐典型相关分析粒子群优化算法

宏观山脉线抽取及其辅助技术研究

基于数字高程模型DEM的数字地形分析已成为地理信息系统GIS的重要组成部分,广泛应用于测绘、遥感、城市规划、军事作战等各个方面,其中的特征地形要素分析研究尤为活跃。　　

学位

数字高程模型数字地形分析地理信息系统微观特征山脉线栅格数据矢量化拓扑结构等高线

基于集群计算的网络信息采集系统的设计与实现

与本文相关的学术论文