论文部分内容阅读
随着互联网的飞速发展,网络信息量呈现出爆炸式的增长,用户获取所需信息资源的难度越来越大。搜索引擎作为互联网的入口对于网民的信息获取具有重要作用。网络爬虫是搜索引擎的关键组成部分,它能够自动地抓取网页信息,并将其保存到搜索引擎的服务器上,然后用于建立索引。另外,对于大数据分析等新兴领域研究来说,网络爬虫也是快速获取数据的重要工具之一。然而,传统的爬虫具有资源消耗大、效率低、准确率低等缺点,语义爬虫能够有效地改善这些问题。 本文在前人研究基础上提出了一体化语义爬虫的概念,它能够从一个用户输入的关键词出发,自动构建该关键词所在领域的层状语义结构模型,并利用该模型指导爬虫的抓取工作,同时,在抓取过程中,利用已经抓取到的网页进一步进化语义结构。 本文对一体化语义爬虫构建过程中涉及的关键技术进行了研究,主要工作包括: (1)介绍了爬虫构建过程中的相关技术研究现状,分析了现有技术的不足。 (2)对语义爬虫的概念做出了界定,介绍了语义爬虫的模型和策略,对语义爬虫和传统爬虫之间的区别进行了对比。 (3)针对本文提出的一体化语义爬虫涉及的关键技术,如初始语义结构构建、网页分类、语义结构进化等,提出了相应的算法,对算法流程做出了详细解释,并利用实验对算法有效性进行了验证。 (4)利用上述技术设计并实现了一体化语义爬虫系统原型xSpider,设计了与基于宽度优先策略的基准爬虫的对比实验,通过对准确率和有效网页抓取速度等指标的分析,证明了xSpider的有效性。 最后,本文还对一体化语义爬虫的应用做出了研究,设计并实现了基于语义爬虫构建的语义索引和面向冰箱领域的语义搜索引擎。