一种面向主题的分布式爬虫系统的研究与实现

来源 :东北大学 | 被引量 : 1次 | 上传用户:tinavalwell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet技术的发展使网络中蕴含的信息资源和网络用户迅速激增,庞大的用户群催生了互联网的各种搜索应用。快速、高效、准确地检索信息,只靠单台计算机,无论是处理能力还是存储容量都无法胜任。若采用大型机,则效费比相对变低。因此,研究和开发廉价的搜索技术的需求越来越大,而近几年新兴的云计算技术无疑提供了一种契机。鉴于云计算的重要性,学术界和企业界均在开展相关技术的研究和应用,基于云计算的搜索引擎是其中重要的应用之一。基于此,本文在云计算开放平台hadoop的基础上开展了面向主题的分布式爬虫技术的研究,利用服务器搭建起hadoop应用环境,并在其上成功地实现了面向主题的爬虫系统。本文首先从云计算技术架构出发,探讨了云计算领域里最为著名的两个分布式文件系统;第二,对云计算领域常用的key/value数据库之一的Berkeley DB做了深入的研究;第三,对网络爬虫Heritrix做了详细的源代码分析,为以后改造Heritrix从而生成本系统的主题爬虫做好准备。在上述工作的基础上,本文提出了基于字典、文本分析和网页结构三个主题模型,基于这些主题模型,提出了面向主题的分布式爬虫系统的整体架构,确定了分布式爬虫系统的主控节点和爬虫子节点的内部架构,深入研究并应用了其中的关键技术,最终实现了该爬虫系统。在实验室提供的环境下,对整个系统所做的大量测试表明,该系统达到了设计目标,具有良好的可用性和可扩展性。
其他文献
随着3G(3rd-generation)及后3G无线通信技术的成熟和发展,使得视频通信业务成为可能,人们也越来越期待能在手机智能终端上享受更多丰富多彩的业务,比如互联网业务。随着呼叫
雷达辐射源信号识别是电子情报侦察(ELINT).电子支援侦察(ESM)和雷达威胁告警(RWR)系统中的关键处理过程,也是电子干扰的前提和基础,其识别水平是衡量雷达对抗设备技术先进程
随着软件在航天型号系统中得到广泛的应用,软件在系统中的作用也越来越重要。在很多的安全关键性应用领域,特别是航天型号中,对软件的有效测试的需求也在不断增长。其中,在软件确
无线传感器网络(wireless sensor network, WSN)由部署在监测区域内大量的、微型的传感器节点组成,其目的是协作地感知、采集和处理监测区域内感知对象的信息,并发送给观察者
随着智能手机和3G网络的逐渐普及,移动用户规模的快速增长,手机正朝着智能、互联、开放等方向发展,安全问题也日益突出。人们越来越需要一款安全软件,能够监控手机联网行为,实时的
微代码存储在中央处理器(CPU,Central Processing Unit)的解码单元中,通常是由类似汇编语言所编写的代码。处理器将变长的x86指令翻译成一系列微操作,以便于由CPU内部以类似精简
视频文本能够提供重要的视频语义信息以供视频检索和视频摘要,因此获取视频文本对于视频语义分析具有重要作用。有效地检测出视频中的文本无疑是其中一项关键的技术。文本检
随着数控技术的不断发展,传统数控系统因其专用、封闭的结构特点限制了自身的性能,已不能很好地满足现代制造业的需求。为此而提出的开放式数控系统具有更优的可用性、可维护性
在UCT算法的基础上,蒙特卡洛搜索算法已经成为所有现代计算机围棋程序的标准解决方法。围棋本身及蒙特卡洛搜索算法的特性,决定了计算机围棋程序的实现不仅计算量大而且计算
业务流程执行语言(Business Process Execution Language, BPEL)是一种Web服务(Web Service, WS)组合语言。随着BPEL流程变得越来越复杂,通过测试来保证流程的可服务性和可靠