本体导向的对象级垂直资源抓取

来源 :天津大学 | 被引量 : 0次 | 上传用户:qiushuiweishen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,一些列重大公共突发事件的频发,使得智能应急系统的构建变得愈加重要。互联上存在着大量与应急领域密切相关的资源,这些资源对于应急智能系统的构建具有重要的意义,而如何有效的获取这些资源是本论文的研究重点。与传统的资源抓取方式不同,本论文首先以“自顶向下”的思想提出本体导向的垂直资源抓取框架,阐述了该框架中各个模块的作用与算法流程设计。框架包括了三个核心模块:领域知识本体建模、应急领域相关的元搜索引擎、以及爬虫。本体建模方面,论文建立了应急预案本体模型,用OWL语言描述了该本体各个要素的实现;元搜索方面,论文实现了当前最权威的中文搜索引擎的调用接口,结合领域特点提出了改进的元搜索合并算法,用于对搜索结果进行合并与排序,系统运行结果表明改进的元搜索合并算法使得元搜索的结果更能有效的反应搜索对象与资源的关系;爬虫方面,通过对应急领域的各种资源来源进行分析,本论文设计与实现了各种资源抓取模式,并在本体的指导之下,提出结合网页内容分析和链接分析的垂直抓取策略,用于应急资源的垂直抓取。论文最后实现了应急垂直搜索引擎原型系统,对本文所做的工作进行验证。
其他文献
IPv6在全球已经得到大规模部署,中国的CNGI-Cernet2作为全球最大的纯IPv6教育科研网络,其驻地网校内网络IPv6升级子项目也开始了紧张的实施阶段。另一方面,由IPv4发展带来的
从医学图像重建人体解剖结构的多组织体模型,是现代计算机辅助医学应用领域一项基本且重要的工作。本文介绍了一种基于医学图像的多组织四面体模型重建新方法。它主要分为两
随着企业市场化改革的不断深化和竞争的日趋激烈,企业将面临着越来越严峻的挑战,为了适应市场竞争,企业必须拓宽思路,向管理和创新要效益。企业资产管理(Enterprise Asset Managem
近年来,随着网络技术的发展和数字地球平台概念的提出,空间数据获取技术也在不断进步,从而使空间信息向多源、多级和海量化的趋势发展。同时,空间信息应用的范围不断扩大,正
随着万维网的迅速发展,越来越多的组织、公司在万维网上发布已发现的软件安全缺陷信息。本文基于垂直搜索技术从网上获取软件安全缺陷信息,并进一步基于语义标注抽取该信息用
监狱、看守所作为一个国家重点安防防护单位,对于安防系统的要求非常严格。随着安防技术及其相关领域的发展,监狱各个相关部门根据自身的特点及业务需求逐渐形成了各种功能不
学位
Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分
基于内容的图像检索是目前多媒体技术中非常活跃的研究方向之一.虽然近年来出现了一些较成熟的检索系统,但是这些系统存在一些问题,如未能很好地模拟人的视觉特性以及对图像
随着移动3G牌照的发放,移动运营商也开始大规模建设R4网络。在R4网络中,核心网采用软交换技术,控制与承载分离。MSC Server之间通过IP网相连,采用BICC协议通信。MGW之间的话