一个Web本体的采集系统

来源 :东南大学 | 被引量 : 0次 | 上传用户:nbwdwby
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体提供简单、统一和形式化的语义描述,并且由于学术研究和工业生产的需要正在得到越来越多的重视。在我们的研究中,本体是描述一组概念及其关系的用语义Web语言写的文档。本体技术的突破性发展需要有促进高效本体开发的方法帮助和工具支持,对此,一个关键的观点就是成功地重用本体。为促进本体重用、支持本体构建,一些组织已经开展研究,并建立起应用系统。本体库系统是一种组织和管理本体的重要工具,它通过提供各种功能支持管理、查询和改编本体,促进本体重用。Swoogle是马里兰大学开发的语义Web文档索引和检索系统,它抽取本体元数据、计算文档关系,为本体相关的应用提供各种检索服务。但是这些系统在采集本体的手段方面尚有欠缺,本体来源有限因而其功能受到限制。针对现有系统存在的局限性,我们提出基于聚焦爬虫技术建立一个Web本体采集系统的设想。爬虫是搜索引擎等系统后台的信息采集工具,聚焦爬虫根据既定的搜索目标,采用最好优先的搜索策略,有选择地访问Web,获取网页,进行更加有效的搜索和采集。本文对基于聚焦爬虫采集Web本体的原理、技术和方法进行理论研究和实践探索,主要成果包括:分析、总结了本体文档的Web分布特性;提出了适合Web本体搜索的链接评价综合方法;设计并实现了一个称为“WebOnto Crawler”的本体文档采集系统。
其他文献
随着Internet应用的迅速发展,网上信息迅速增长,信息种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载。Internet上信息资源分布的广泛性又给用户寻找
在网络技术高速发展的今天,人们越来越依赖于网络进行信息的处理。因此,网络安全就显得相当重要,随之产生的各种网络安全技术也得到了不断地发展。防火墙、加密等技术,总的来
志愿者计算模型的基本原理是利用Internet上广泛分布的空闲计算资源,运行计算量大的分布式应用。目前已有的志愿者计算项目虽然取得了一定的成功,但是还存着编程接口复杂,没
随着多媒体数据库的不断发展,传统的利用关键词进行图像检索已经越来越不能满足图像检索的需要,基于内容的图像检索已成为当前的研究热点。 本文首先介绍和分析了基于内容图
序列比对是现代生物信息学中一个最基本的研究课题。通过多序列比对,可以预测新序列的结构和功能,分析序列之间的同源关系,以及进行系统发育分析。目前还没有一个最佳的多序
欠驱动系统是指系统驱动个数少于系统自由度个数的一类非线性系统。由于驱动装置的缺失,对该类系统的控制算法研究要比全驱动系统复杂,目前仍然没有统一的控制理论适用于这类系
随着智能车载终端的高速发展,智能车载终端的功能越来越多,需要处理的数据量也在成倍增加。嵌入式数据库作为车载终端上应用程序数据存储的重要载体,起到保证数据安全、便于数据
对于传感器数据的处理技术的研究是有效地利用传感器网络的重要途径。本文主要分析并改进了感知数据存储以及感知数据的查询处理的方法,设计了感知数据管理系统WsnDB。 首
本文主要研究函数依赖关系分析与异常安全模式构建。函数依赖关系分析是构建异常安全模式的基础,通过分析函数调用关系在程序中的各种表现形式,提出了一种将函数调用依赖关系图
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动式的微波成像雷达,它利用孔径合成的方法获得方位向的高分辨率。扫描模式(ScanSAR)可以获得很宽的测绘带,能够方便地实