一体化语义爬虫构建及其关键技术研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:liulaolv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络信息量呈现出爆炸式的增长,用户获取所需信息资源的难度越来越大。搜索引擎作为互联网的入口对于网民的信息获取具有重要作用。网络爬虫是搜索引擎的关键组成部分,它能够自动地抓取网页信息,并将其保存到搜索引擎的服务器上,然后用于建立索引。另外,对于大数据分析等新兴领域研究来说,网络爬虫也是快速获取数据的重要工具之一。然而,传统的爬虫具有资源消耗大、效率低、准确率低等缺点,语义爬虫能够有效地改善这些问题。  本文在前人研究基础上提出了一体化语义爬虫的概念,它能够从一个用户输入的关键词出发,自动构建该关键词所在领域的层状语义结构模型,并利用该模型指导爬虫的抓取工作,同时,在抓取过程中,利用已经抓取到的网页进一步进化语义结构。  本文对一体化语义爬虫构建过程中涉及的关键技术进行了研究,主要工作包括:  (1)介绍了爬虫构建过程中的相关技术研究现状,分析了现有技术的不足。  (2)对语义爬虫的概念做出了界定,介绍了语义爬虫的模型和策略,对语义爬虫和传统爬虫之间的区别进行了对比。  (3)针对本文提出的一体化语义爬虫涉及的关键技术,如初始语义结构构建、网页分类、语义结构进化等,提出了相应的算法,对算法流程做出了详细解释,并利用实验对算法有效性进行了验证。  (4)利用上述技术设计并实现了一体化语义爬虫系统原型xSpider,设计了与基于宽度优先策略的基准爬虫的对比实验,通过对准确率和有效网页抓取速度等指标的分析,证明了xSpider的有效性。  最后,本文还对一体化语义爬虫的应用做出了研究,设计并实现了基于语义爬虫构建的语义索引和面向冰箱领域的语义搜索引擎。
其他文献
宋代人物资料管理系统的研制和应用沈治宏王蓉贵1研制“中国地方志宋代人物资料管理系统”的必要性四川大学已故著名历史学家缪钺先生在《全宋文序》中指出:“吾中华民族立国于
进化算法是一类借鉴生物界自然选择和自然遗传机制的随机化搜索算法,其主要特点是群体搜索策略和群体中个体之间的信息交换,搜索不依赖于梯度信息。它尤其适用于处理传统搜索
目前,服务型政府成为世界上大多数国家选择的政府模式。我国行政体制改革的推进,让服务型政府从最初的理论研究向行政管理实践迈进,党和政府非常重视服务型政府建设。我国电子政
学位
为筛选适合工厂化栽培的优良秀珍菇菌株,本研究对秀大、秀0027、秀76、台秀57的菌丝生长情况、液体菌种培养特性、农艺性状和子实体营养成分等进行比较分析.结果表明,秀大的
随着知识竞争时代的来临,技术更新日新月异,以知识资产为核心战略资源的技术创新已成为企业生存发展的关键,直接影响到企业的核心竞争力。本文以企业技术创新力测度的研究成果为
信息化社会下的企业竞争迫切需要信息资源的共享,然而由于企业内部和企业间有多个不同的数据库,它们共同构成了一个异构数据库系统,这使得企业要实现信息资源的统一、透明和高效共享面临着难题。目前,解决企业异构系统信息共享的方法主要是应用数据库转换工具或中间件,但缺点是耦合性差、成本高、实施复杂等。基于服务的信息共享模式的出现给异构系统信息共享带来了新的实现方法。本文对基于服务的异构系统信息共享体系结构、共
1 知识积累的意义rn荀子曾在《劝学篇》中以“不积跬步,无以至千里;不积细流,无以成江海”这样的精辟语言闸述了积累与成功的关系.
论文通过阐述叙词表概念维护的研究内容,归纳了目前叙词表概念更新维护研究的现状与问题,同时总结了生态学原理在图情学科应用的成果,提出了将生态学理论应用至叙词表维护研究中
为了研发与水稻机械旱栽秧相配套的保水性好、物理性状优良的钵土,进行不同营养土组成对钵土保水性及秧苗耐旱性影响研究.结果表明:由黄壤土、砂姜黑土作为营养土组成的钵土,
近年来,网络信息技术不断发展,科技合作在国际合作与竞争中的地位不断提升,并呈现出一些新的特点和趋势。本文从国际科技合作的理论基础、国际科技合作的定义、动机、影响因素、