基于本体的DeepWeb数据集成方法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户:cqt19900112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息的激增,越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移。与Surface Web相比,Deep Web包含的信息具有数量大、质量高、增长快等特征。近年来,对Deep Web的研究已成为Web搜索领域的热点。Deep Web数据集成研究的目的是实现对各领域Deep Web信息的搜索,Deep Web数据源发现和查询结果页面的数据提取是该研究的两个关键点。有学者提出了基于本体的数据源发现框架和数据提取算法,目前主流的Deep Web数据源发现框架中,本体不能自动扩展,框架缺乏自适应性;运用目前的DeepWeb数据提取算法对查询结果页面进行数据提取,存在查全率和查准率较低的问题。针对上述问题,本课题在Deep Web数据源发现框架中引入了本体的自动扩展,增加框架的自适应性;采用索引相似度相结合的算法,提高对查询结果页面进行数据提取的查全查准率。本文的研究工作包括以下几个方面:1.研究基于本体的Deep Web数据源发现,采用网页分类、表单内容分类和表单结构分类来确定符合某领域的Deep Web查询接口,在网页分类和表单内容分类中增加本体的半自动构建和自动扩展模块。在数据源发现的过程中,以领域专家构建的核心本体为基础,通过提取网页中与本体相似度较高词汇作为预扩展词汇,再结合本体扩展策略对核心本体进行扩展。2.研究Deep Web对查询结果页面的数据提取,提出了索引相似度相结合的数据抽取算法。通过记录查询结果页面中含有关键字的索引,并找到索引最大公共节点,确定查询结果网页的主数据区域;通过计算数据块之间和总的平均相似度,过滤掉平均相似度较小的数据块,舍弃总平均相似度较小的数据抽取结果,完成对主数据区域中数据块的提取。3.实验证明:上述框架和方法具有一定的可行性。该Deep Web数据源发现框架具有了一定的自适应性,可以减少框架中人工构建与扩展本体的资源浪费,索引相似度相结合算法提高了对Deep Web查询结果页面中实体抽取的查全率和查准率。
其他文献
随着电信业务的引入,IP网的服务质量QoS(Quality of Service)成为下一代因特网的重要研究课题,业界已经提出了多种解决IP网服务质量的模型和机制.这些机制的引入,使操作管理
当前,随着人们对教育终身化、全球化的需要以及计算机、通信技术的飞速发展,网上学习正逐渐成为人们乐于接受的学习方式,基于计算机网络的远程教育系统开始在现今和未来教育中扮
VPN是指将物理上分布在不同地点的网络,通过公用骨干网联接成逻辑上的虚拟子网.为了保障信息在Internet上传输的安全性,VPN技术采用了认证、存取控制、机密性、数据完整性等
机器人技术体现了当代科学技术的发展程度,被誉为“当代最高意义的自动化”,其研究涉及多门学科,涵盖了众多的研究领域。随着应用领域的不断深入,对移动机器人的智能性要求也
在总结分析三种认证电子邮件协议模型——无需可信第三方介入的协议模型、基于在线可信第三方的协议模型和基于离线可信第三方的协议模型的优缺点的基础上,针对现有协议方案
随着网络,尤其是网络经济的发展,企业规模日益扩大,客户分布日益广泛,合作伙伴日益增多,传统企业内部网络基于固定地点的专线连接方式,已难以适应现代企业的需求.于是企业在
该文介绍了我们从编程语言的角度为解决移动代码安全问题所做的研究工作,主要内容包括:1.我们阐述了这种方法的基本原理:就是利用编译手段搜集到程序的类型、结构等信息,在客
近年来,随着MANET民用步伐的加快,人们对不受时空限制,在任何时间、任何地点访问基础设施网络资源的要求越来越强烈.人们期望通过MANET和Internet的互联,来拓展Internet的无
学位
从小额支付系统的需求出发,首先分析了PayWord这种小额支付协议.PayWord协议可以有效防止伪造和重复消费,但不能保证交易的原子性,也不能防止透支和抵赖,并且在多商家的情况