基于Ontology的Web信息抽取和信息集成的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：xiao0mai

【摘要】

：

该文在前人已有的研究工作基础上,重点研究了动态Web页面(包括Hidden Web)的信息抽取技术和算法,Web信息集成中的Schema匹配等问题.在研究获得的算法基础上实现了一个智能信

【作者】

：

宋晖

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2004年期

【关键词】

：

Web信息抽取动态Web页面 Schema匹配 Ontology Hidden Web入口索引信息代理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文在前人已有的研究工作基础上,重点研究了动态Web页面(包括Hidden Web)的信息抽取技术和算法,Web信息集成中的Schema匹配等问题.在研究获得的算法基础上实现了一个智能信息代理平台,并成功地应用于自然科学基金项目—基于Ontology的Web音乐知识检索系统.主要的研究和成果如下:1.该文提出了针对动态生成网页的基于Web树结构表示的信息抽取和注释算法.该算法任意从页面集中选择两个页面或多个页面作为样本,无需人工标注,从中自动推导出页面模板Wrapper和数据模式.算法中创新提出的最小抽取树、纯文本模板单元等概念提高了Web页面模板识别的准确性并减少了Wrapper生成算法的开销;页面数据的语义注释直接利用了生成Wrapper过程中的中间结果.通过对大量真实网站上下载的网页进行实验表明该算法在两种不同类型的动态网页抽取和注释上都具有很好的效果.2.通过Web获得的数据Schema没有传统关系数据库的Schem的完整定义,该文提出了基于聚类的Web信息Schema匹配算法.该算法综合使用了实例匹配和Schema名字匹配两种技术,给出了聚类算法中对象距离的计算方法,避免了通常schema匹配算法中1-1匹配的限制以及对schema定义的要求.实验数据表明了算法的有效性.3.该文提出了一套自动搜集、索引以及查询Hidden Web入口信息的新途径,给出了其中关键的算法.它能自动从网页上抽取Hidden Web的访问入口,借助Ontology技术按应用领域筛选出对应的访问入口,并将其转换为统一定义的Ontology概念.由于使用统一的概念表示Hidden Web的查询入口参数,为机器自动地查询后台信息提供了基础.4.利用研究所得的Web信息抽取算法、Schema匹配算法以及Hidden Web索引等技术,该文设计并实现了一个智能信息代理平台,它能为信息系统从Web上收集信息,并按照领域模型进行知识集成.该代理已成功地应用于自然科学基金重大国际合作项目,中国民族音乐数字图书馆子系统—基于Ontology的Web音乐知识检索系统,为该系统收集、集成Web上的音乐知识.通过更换领域模型的定义,该代理可以方便有效地应用于不同的信息系统.

其他文献

大型运动会体操项目成绩处理系统的设计与实现

本文依托第22 届东南亚运动会体操项目成绩处理系统的建设,对将信息技术应用于大型运动会所涉及到的问题进行了研究。基于作者的分析和理解,本文阐述了软件复用理论和面向对

学位

面向对象软件复用成绩处理体操

基于过程改进的软件质量提升模型研究

　　信息技术的迅速发展和应用的日益广泛，使计算机软件的重要性与日俱增。软件规模越来越大，其复杂程度也不断增加。软件质量是软件产品的生命。然而，软件质量的发展状况一直不

学位

软件质量过程改进质量目标过程检查缺陷跟踪

JavaMail规范的研究和实现

近年来,在Internet/Intranet/Extranet 开发环境中,企业级应用系统大多采用三层或多层应用模式,这就是为我们所知的“三层/多层计算”。为了方便开发、部署、运行和管理基于

学位

J2EE应用服务器JavaMail MIME SMTPPOP3 NNTP

RoboCup中多智能体系统协作的研究与实现

多智能体系统是分布式人工智能的一个前沿学科,它研究的核心问题是寻求建立一种有效的协作机制使功能独立的智能体通过协作完成复杂的控制任务或解决复杂的问题。本文以R

学位

多智能体系统协作亲密度模型合作意愿矩阵

面向流量工程的约束路由的研究和实现

随着Web和多媒体应用的迅速增长,网络业务流量呈几何趋势递增,这对传统的尽力而为的路由转发机制提出了严峻的挑战。当前的路由协议仅基于最短路径或最小跳数来为业务流选择

学位

约束路由流量工程OSPFLSAMPLS资源预留

一种分层次数据去冗技术研究

随着企业和个人用户数据迅速增长，对数据中心的存储能力要求越来越高。统计显示在这些海量数据中，有相当的一部分是冗余数据，如何检测并删除这些冗余数据，提高数据中心存储性能已

学位

去冗系统分层次架构SHA-1优化多维Bloom FilterRFID标签

IP网络带宽的端到端主动测量技术研究

本文通过分析包长不同的两个数据包对，对路径容量的测量结果之间的关联，提出了一种基于数据包四元组测量端到端路径容量的方法CoPP，数据包四元组由包长不同的两个数据包对组成。

学位

网络测试带宽测量链路容量

基于通用MIS系统数据的OLAP与决策分析

随着国家信息化建设的飞速发展,管理信息系统(MIS)在各行业得到广泛应用。各企事业单位利用数据库管理系统获取、传输、保存和加工数据,实现科学的电子化管理,从而有效地解决

学位

多维分析模型数据立方体OLAPPivotTable决策支持系统

支持高精度告警的网络入侵检测系统的设计与实现

本论文在对网络攻击进行有效分类的基础上，提出了一种支持高精度告警的入侵检测系统，使得入侵检测系统能够将网络攻击的主要特征反馈给用户，从而让用户能够准确全面的了解攻击，及

学位

入侵检测系统插件网络安全网络防御告警概念

基于Diameter协议的下一代网络QoS计费系统研究

　　在下一代网络(NGN)上传输的数据除了传统的数据流外，更重要的还包括各种音频视频等多媒体流。下一代网络的这种特征给网络的服务质量(QoS)提出了新的要求，随之产生的是基于

学位

Diameter协议智能计费代理QoS计费

基于Ontology的Web信息抽取和信息集成的研究

与本文相关的学术论文