论文部分内容阅读
随着WWW技术的高速发展,基于网络数据库(Web DataBase, WDB)Web的应用程序数量呈指数级增加,随着这些应用程序的增加,互联网信息来源发生了巨大的改变。这改变对传统的基于搜索引擎的查询和获取信息的方式带来了巨大的挑战。由于这些基于Web的数据库,仅能通过HTML查询表单提交数据获得,并动态生成查询结果。这些信息不能为传统搜索引擎所获得,因此研究如何利用这部分即将成为Web信息最大来源的深度网(Deep web)的数据,是十分有必要的。从1994年Dr.Jill Ellsworth提出了深度网的概念,国外就开始对深度网进行了大量的研究工作。并提出了深度网信息集成框架,该框架共分三大部分:深度网接口集成,主要完成对深网接口的发现,分类以及模式抽取;查询处理,主要完成对客户查询请求的映射;结果处理模块,主要完成查询结果的抽取,变换与合并数据的任务。研究深度网的最终目的是为获取隐藏于Web应用之后的网络数据库中的数据。由于WDB仅仅只提供了基于HTML表单的查询接口,以及基于HTML的查询结果返回,并且HTML语法弹性过大,写法灵活,不包含任何WDB语义信息,所以通过HTML的分析来对WDB查询接口进行抽取、判定、分类、结果抽取等工作具有相当的困难。深度网信息集成框架试图建立起一个全自动的系统,可以自动的完成该框架中的每一部分功能。但对于数量巨大的WDB来说,很难找出统一的处理方式。多数的研究倾向于部分工作由人工参与,或是在小范围内进行数据集成工作。有鉴于此,本文考虑将应用缩小至某领域,如图书查询,火车信息查询等。当指定一个领域之后,利用该领域知识作为集成的指导信息,可在一定程度上降低集成的难度,并提高集成的效率。本文研究如何在指定的领域内自动的进行WDB查询接口的识别、判定与接口模式的抽取。本文通过使用聚焦网络爬虫来实现WDB查询接口的发现,使用一元感知器完成接口的判定与筛选。提出了以N-Gram算法计算属性相似度的方法来完成对接口属性的抽取与集成。