异构学术资源分布式爬取系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:bjzmht
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着学术信息的快速膨胀和互联网技术的快速发展,近年来,网络中的学术资源呈现出规模大、增长速度快、来源和组织结构不统一的特征,给学术资源的获取带来了困难。同时,本项目组一直针对互联网中的学术资源进行信息挖掘工作,通过挖掘学术信息,进行学术建模和学术推荐,这对海量、实时有效的学术资源数据的获取提出了更高的要求。因此,从不同的学术资源搜索网站快速高效地爬取学术资源,抽取有用的学术资源信息,建立统一的学术资源数据库,显得尤为重要。本论文的主要工作包括了解网络爬虫相关技术、分布式计算的工作原理、网页解析的方法及海量数据存储技术等。在此基础上,基于分布式爬取框架Nutch,本文设计并实现了一个异构学术资源分布式爬取系统,包括设计和实现异构学术资源网页的解析和存储,给出基于Nutch的分布式爬取系统的整体结构、物理框架和存储结构,以及对Nutch的扩展方法和方案,然后基于系统的设计进行详细的编码实现和系统测试。本文设计和实现的异构学术资源分布式爬取系统目前已经在实验室环境得到部署应用。本文基于Nutch和Hadoop设计和实现的异构学术资源分布式爬取系统,解决了单机爬取速度缓慢、扩展性差的问题,提高了学术资源信息采集的速度,扩大了采集规模,为学术资源的挖掘和研究提供了学术数据。
其他文献
本论文题目来源于中国地质调查局项目“中上扬子重点区海相油气地质综合研究及选区评价”的子课题“中上扬子重点地区油气地质-地球物理综合解释”(项目编号:1212011220750-0
雷达通过发射宽带信号可以获得目标的高分辨一维像,然而一维距离像本质上是目标散射点在雷达视线上的投影分布,所以一维距离像携带的信息不够充分且对目标的姿态变化敏感。但
利用光催化剂进行光催化水分解产氢,将太阳能转化为氢燃料,是一种清洁和可再生能源的潜在解决方案。设计能同时吸收可见光和高迁移率的光催化剂一直是发展的目标,具有重要的
近年来,随着工程领域的地下空间开发不断走向深部,矿山开采深度达到1000m以下,水电工程中锦屏引水隧洞的最大埋深为2525m。随着这些工程的相继出现,带来了高地温、高地压以及
纳米颗粒由于其独特的形状和性能特征,在多个领域具有很好的研究价值和应用前景。使用飞秒激光产生纳米颗粒的方法具备快速稳定和可控的特点,已经成为制备纳米颗粒的先进手段
鳢肠[Eclipta prostrata(L.)L.]是菊科(Asteraceae)鳢肠属(Eclipta)一年生阔叶草本植物,喜湿耐旱,可在水稻、玉米、棉花、花生等作物田危害并造成作物产量下降。自AHAS抑制剂商品化
学位
节节麦(Aegilops tauschiii Coss.)属禾本科(Gramineae)山羊草属(Aegilops),一年生或越年生杂草,是我国进出境植物检疫危险性杂草之一。因为节节麦与小麦具有较近的亲缘关系,
由于混沌是一类复杂的非线性运动,并且在保密通讯、信号传播和控制工程中有着潜在的应用价值,使得混沌系统的同步控制成为海内外学者的热门研究对象.随着对分数阶非线性混沌
当今网络技术发展非常迅速,互联网逐渐变得的越来越普及,人们学习生活的各个方面都已经离不开网络。而对于日渐复杂的网络系统来说,如果网络处于不正常的运行状态,难免会产生