论文部分内容阅读
Deep Web中包含丰富的信息,这些信息结构性好、价值高、面向特定的领域。访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。Deep Web数据集成研究的根本目的就是为了给用户提供一个统一的访问途径来自动获取和利用自由分布在整个互联网上丰富的Deep Web信息。
查询接口是Deep Web数据集成领域研究的基础。这是因为查询接口是DeepWeb数据库的唯一入口,通过向Deep Web查询接口提交查询是获得其中信息的主要途径。在Deep Web数据集成框架中,有若干子问题都依赖于对查询接口的处理,因此对查询接口模式的研究占有极其重要的地位。
Deep Web站点都是面向特定领域的,所以查询接口的模式通常由一组领域相关的属性组成。已有的研究成果表明,同一领域内大量查询接口的属性聚合后收敛于一个相对较小的集合中,因此本文提出领域模型的概念。领域模型定义了特定领域内所有查询接口包含的属性和表达相同语义的属性词汇,它是一种树形的层次结构,表示领域内各个属性和领域元素的层次关系。领域模型在Deep Web数据集成系统的若干问题中都有应用价值。
在领域模型的基础上,本文提出一种通过领域模型知识的指导来提取查询接口模式的方法。首先,为每一个领域构建领域模型,该模型提供了能够指导查询接口模式提取的全局模式信息;其次,通过接口标签和领域模型之间在语义上的相似性对每一个标签按照属性进行分组,生成查询接口的标签树;再次,利用领域模型结合查询接口页面的布局、语义信息,对每一个表单控件分配一个标签,生成接口元素的集合;最后,合并前两步得到的标签树和接口元素,生成查询接口的完整模式信息。
基于领域模型的查询接口模式提取技术充分利用领域模型的模式信息,同时结合网页布局、表单控件的语义信息等因素。实验结果表明,该方法有很好的查全率和查准率,具有较强的实用性。