基于Ontology的Web信息抽取和信息集成的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xiao0mai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在前人已有的研究工作基础上,重点研究了动态Web页面(包括Hidden Web)的信息抽取技术和算法,Web信息集成中的Schema匹配等问题.在研究获得的算法基础上实现了一个智能信息代理平台,并成功地应用于自然科学基金项目—基于Ontology的Web音乐知识检索系统.主要的研究和成果如下:1.该文提出了针对动态生成网页的基于Web树结构表示的信息抽取和注释算法.该算法任意从页面集中选择两个页面或多个页面作为样本,无需人工标注,从中自动推导出页面模板Wrapper和数据模式.算法中创新提出的最小抽取树、纯文本模板单元等概念提高了Web页面模板识别的准确性并减少了Wrapper生成算法的开销;页面数据的语义注释直接利用了生成Wrapper过程中的中间结果.通过对大量真实网站上下载的网页进行实验表明该算法在两种不同类型的动态网页抽取和注释上都具有很好的效果.2.通过Web获得的数据Schema没有传统关系数据库的Schem的完整定义,该文提出了基于聚类的Web信息Schema匹配算法.该算法综合使用了实例匹配和Schema名字匹配两种技术,给出了聚类算法中对象距离的计算方法,避免了通常schema匹配算法中1-1匹配的限制以及对schema定义的要求.实验数据表明了算法的有效性.3.该文提出了一套自动搜集、索引以及查询Hidden Web入口信息的新途径,给出了其中关键的算法.它能自动从网页上抽取Hidden Web的访问入口,借助Ontology技术按应用领域筛选出对应的访问入口,并将其转换为统一定义的Ontology概念.由于使用统一的概念表示Hidden Web的查询入口参数,为机器自动地查询后台信息提供了基础.4.利用研究所得的Web信息抽取算法、Schema匹配算法以及Hidden Web索引等技术,该文设计并实现了一个智能信息代理平台,它能为信息系统从Web上收集信息,并按照领域模型进行知识集成.该代理已成功地应用于自然科学基金重大国际合作项目,中国民族音乐数字图书馆子系统—基于Ontology的Web音乐知识检索系统,为该系统收集、集成Web上的音乐知识.通过更换领域模型的定义,该代理可以方便有效地应用于不同的信息系统.
其他文献
本文依托第22 届东南亚运动会体操项目成绩处理系统的建设,对将信息技术应用于大型运动会所涉及到的问题进行了研究。基于作者的分析和理解,本文阐述了软件复用理论和面向对
  信息技术的迅速发展和应用的日益广泛,使计算机软件的重要性与日俱增。软件规模越来越大,其复杂程度也不断增加。软件质量是软件产品的生命。然而,软件质量的发展状况一直不
近年来,在Internet/Intranet/Extranet 开发环境中,企业级应用系统大多采用三层或多层应用模式,这就是为我们所知的“三层/多层计算”。为了方便开发、部署、运行和管理基于
多智能体系统是分布式人工智能的一个前沿学科,它研究的核心问题是寻求建立一种有效的协作机制使功能独立的智能体通过协作完成复杂的控制任务或解决复杂的问题。 本文以R
随着Web和多媒体应用的迅速增长,网络业务流量呈几何趋势递增,这对传统的尽力而为的路由转发机制提出了严峻的挑战。当前的路由协议仅基于最短路径或最小跳数来为业务流选择
随着企业和个人用户数据迅速增长,对数据中心的存储能力要求越来越高。统计显示在这些海量数据中,有相当的一部分是冗余数据,如何检测并删除这些冗余数据,提高数据中心存储性能已
本文通过分析包长不同的两个数据包对,对路径容量的测量结果之间的关联,提出了一种基于数据包四元组测量端到端路径容量的方法CoPP,数据包四元组由包长不同的两个数据包对组成。
随着国家信息化建设的飞速发展,管理信息系统(MIS)在各行业得到广泛应用。各企事业单位利用数据库管理系统获取、传输、保存和加工数据,实现科学的电子化管理,从而有效地解决
本论文在对网络攻击进行有效分类的基础上,提出了一种支持高精度告警的入侵检测系统,使得入侵检测系统能够将网络攻击的主要特征反馈给用户,从而让用户能够准确全面的了解攻击,及
  在下一代网络(NGN)上传输的数据除了传统的数据流外,更重要的还包括各种音频视频等多媒体流。下一代网络的这种特征给网络的服务质量(QoS)提出了新的要求,随之产生的是基于