基于领域模型的Deep Web查询接口模式提取技术

来源 :南开大学 | 被引量 : 0次 | 上传用户:loganmax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web中包含丰富的信息,这些信息结构性好、价值高、面向特定的领域。访问Web数据库逐渐成为人们获取信息的主要手段,因此如何以自动的方式完成对Web数据库中信息的有效利用成为研究的热点。Deep Web数据集成研究的根本目的就是为了给用户提供一个统一的访问途径来自动获取和利用自由分布在整个互联网上丰富的Deep Web信息。   查询接口是Deep Web数据集成领域研究的基础。这是因为查询接口是DeepWeb数据库的唯一入口,通过向Deep Web查询接口提交查询是获得其中信息的主要途径。在Deep Web数据集成框架中,有若干子问题都依赖于对查询接口的处理,因此对查询接口模式的研究占有极其重要的地位。   Deep Web站点都是面向特定领域的,所以查询接口的模式通常由一组领域相关的属性组成。已有的研究成果表明,同一领域内大量查询接口的属性聚合后收敛于一个相对较小的集合中,因此本文提出领域模型的概念。领域模型定义了特定领域内所有查询接口包含的属性和表达相同语义的属性词汇,它是一种树形的层次结构,表示领域内各个属性和领域元素的层次关系。领域模型在Deep Web数据集成系统的若干问题中都有应用价值。   在领域模型的基础上,本文提出一种通过领域模型知识的指导来提取查询接口模式的方法。首先,为每一个领域构建领域模型,该模型提供了能够指导查询接口模式提取的全局模式信息;其次,通过接口标签和领域模型之间在语义上的相似性对每一个标签按照属性进行分组,生成查询接口的标签树;再次,利用领域模型结合查询接口页面的布局、语义信息,对每一个表单控件分配一个标签,生成接口元素的集合;最后,合并前两步得到的标签树和接口元素,生成查询接口的完整模式信息。   基于领域模型的查询接口模式提取技术充分利用领域模型的模式信息,同时结合网页布局、表单控件的语义信息等因素。实验结果表明,该方法有很好的查全率和查准率,具有较强的实用性。
其他文献
自从P2P技术出现以来,文件共享一直是P2P技术应用最广泛、使用人数最多的一个领域。然而随着用户的增多,围绕着P2P共享网络,出现了大量的安全问题。其中文件污染问题已经成为
针对近邻法分类需要大量计算和存储的缺点,本文提出一种基于Reachable和Coverage概念的迭代样本挑选算法(ISSARC:Iterative Sample Selection Algorithm based on Reachable
自动文本分类是信息检索领域的基本任务之一。随着互联网上的信息量呈爆炸性增长,人们很难从大量的文本信息中迅速有效地提取出所需信息。为了解决信息迷向的现象,对文本分类的
本文针对数字媒体领域3D美工团队的工作流程进行管理和规划,研究并构建了基于网络环境的美工团队任务管理系统,并提供基于二维电子地图的交互机制,实现对3D建模、场景规划等工作
随着信息化的快速发展,任何简单的信息系统都要处理流程问题。工作流概念将以往企业中独立、分散的企业业务流程互相联系,从而极大的提高了过程管理的效率,实现企业业务过程重组
网络拥塞控制协议的正常运行,需要所有端节点的协作来完成,以保证网络资源的高效利用和公平分配。然而,在真实网络中有很多端节点不响应拥塞信号并且恶意侵占网络带宽,它们不
物理是一门以实验为基础的学科,实验教学的质量决定了物理教学的效果。但在传统物理课堂的演示实验中,常常因为实验仪器有限、周围温度及湿度等环境因素的影响、学生操作不当
随着科学技术的不断进步,人们对生活品质的要求已经越来越高。以前我们通过声音或者文字进行交流就很知足。但是现在,人们已经远远不能满足于此。人们需要的是“面对面”的交
随着多媒体技术的快速发展与互联网技术的日益普及,我们拥有越来越多的数字图像数据,图像数据的种类和数量也在与日俱增,无论是军用还是民用设备,每天都会产生相当数量的数字
随着多层计算机断层扫描(CT)和快速扫描时代的到来,CT已经成为脑部成像的重要工具,并已经成为检查脑癌,中风,颅内出血,创伤和退化疾病等的主要工具。通过对CT影像的诊断和分