Deep web中基于领域知识的接口集成

来源 :西南大学 | 被引量 : 0次 | 上传用户:donnastinsbt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW技术的高速发展,基于网络数据库(Web DataBase, WDB)Web的应用程序数量呈指数级增加,随着这些应用程序的增加,互联网信息来源发生了巨大的改变。这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。由于这些基于Web的数据库,仅能通过HTML查询表单提交数据获得,并动态生成查询结果。这些信息不能为传统搜索引擎所获得,因此研究如何利用这部分即将成为Web信息最大来源的深度网(Deep web)的数据,是十分有必要的。从1994年Dr.Jill Ellsworth提出了深度网的概念,国外就开始对深度网进行了大量的研究工作。并提出了深度网信息集成框架,该框架共分三大部分:深度网接口集成,主要完成对深网接口的发现,分类以及模式抽取;查询处理,主要完成对客户查询请求的映射;结果处理模块,主要完成查询结果的抽取,变换与合并数据的任务。研究深度网的最终目的是为获取隐藏于Web应用之后的网络数据库中的数据。由于WDB仅仅只提供了基于HTML表单的查询接口,以及基于HTML的查询结果返回,并且HTML语法弹性过大,写法灵活,不包含任何WDB语义信息,所以通过HTML的分析来对WDB查询接口进行抽取、判定、分类、结果抽取等工作具有相当的困难。深度网信息集成框架试图建立起一个全自动的系统,可以自动的完成该框架中的每一部分功能。但对于数量巨大的WDB来说,很难找出统一的处理方式。多数的研究倾向于部分工作由人工参与,或是在小范围内进行数据集成工作。有鉴于此,本文考虑将应用缩小至某领域,如图书查询,火车信息查询等。当指定一个领域之后,利用该领域知识作为集成的指导信息,可在一定程度上降低集成的难度,并提高集成的效率。本文研究如何在指定的领域内自动的进行WDB查询接口的识别、判定与接口模式的抽取。本文通过使用聚焦网络爬虫来实现WDB查询接口的发现,使用一元感知器完成接口的判定与筛选。提出了以N-Gram算法计算属性相似度的方法来完成对接口属性的抽取与集成。
其他文献
随着计算机技术、通信技术和半导体技术的快速发展,物联网成为新一代信息技术的重要组成部分。作为物联网中的一个重要组成部分,无线传感器网络应用也越来越广泛,相关研究也
三维人脸重建在人脸识别、影视制作、网络游戏以及医学等方面中的应用越来越广泛,并且随着计算机技术的快速发展,三维人脸重建已经成为当今计算机图形学、计算机视觉以及模式
伴随着数据挖掘的发展,对聚类的研究越来越深入。目前存在很多种聚类方法,其中模糊C-均值聚类算法应用最广泛,基于该算法提出了很多改进的算法以达到更好的聚类效果。对于聚
推荐系统根据用户对项目的喜好程度进行信息过滤,并应用知识发现技术为用户推荐可能最有兴趣的内容。作为常用的知识发现技术之一,协同过滤是个性化推荐系统的主要工具。随着推
Ad hoc网络是一个由具有无线通信功能的节点组成的多跳无线网络,由于其独有的自组织特性,使得Ad hoc网络适合需要临时架构网络的场所,在军事和民用等领域具有很大发展前景。Ad h
传统的互联网共享信息的解决方法存在着内容管理机制混乱和内容处理效率低下等问题,导致不断膨胀的信息量和快速的信息发布需求相矛盾,同时也无法满足Web2.0交互性的需求。企
当提到传感器网络时一般我们都不会想到利用IP协议,IP协议被认为是本地局域网(Local Area Networks, LAN)、无线局域网(Wireless Area Networks, WAN)、PC及服务器所使用的协
粒子群算法通过一组初始化的粒子群体在搜索空间进行并行搜索,迭代搜索出最优解。其优点是对问题的依赖性小、概念简单、收敛速度快、容易实现等,已被广泛应用于函数优化、多目
随着社会的发展和科技的进步,近十几年来,视频监控领域有了快速的发展,其应用范围越来越广,形式也越来越多样化,特别是3G无线宽带网络的应用,使得视频传输技术迈入了又一个新
本文研究生命探测雷达的信号处理问题。生命探测雷达依据多普勒原理工作,可在一定距离范围内、隔一定介质、不接触目标的情况下探测生命目标。该技术在军事、医学、城市反恐