基于本体的DeepWeb数据集成方法研究

来源 :河南科技大学 | 被引量 : 0次 | 上传用户：cqt19900112

【摘要】

：

随着Web信息的激增，越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移。与Surface Web相比，Deep Web包含的信息具有数量大、质量高、增长快等特

【作者】

：

李道申

【机构】

：

河南科技大学

【出处】

：

河南科技大学

【发表日期】

：

2012年期

【关键词】

：

深度网数据集成本体数据源自适应性 web数据提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Web信息的激增，越来越多的信息开始由静态网页存储的方式向Web服务器维护的数据库即Deep Web转移。与Surface Web相比，Deep Web包含的信息具有数量大、质量高、增长快等特征。近年来，对Deep Web的研究已成为Web搜索领域的热点。Deep Web数据集成研究的目的是实现对各领域Deep Web信息的搜索，Deep Web数据源发现和查询结果页面的数据提取是该研究的两个关键点。有学者提出了基于本体的数据源发现框架和数据提取算法，目前主流的Deep Web数据源发现框架中，本体不能自动扩展，框架缺乏自适应性；运用目前的DeepWeb数据提取算法对查询结果页面进行数据提取，存在查全率和查准率较低的问题。针对上述问题，本课题在Deep Web数据源发现框架中引入了本体的自动扩展，增加框架的自适应性；采用索引相似度相结合的算法，提高对查询结果页面进行数据提取的查全查准率。本文的研究工作包括以下几个方面：1.研究基于本体的Deep Web数据源发现，采用网页分类、表单内容分类和表单结构分类来确定符合某领域的Deep Web查询接口，在网页分类和表单内容分类中增加本体的半自动构建和自动扩展模块。在数据源发现的过程中，以领域专家构建的核心本体为基础，通过提取网页中与本体相似度较高词汇作为预扩展词汇，再结合本体扩展策略对核心本体进行扩展。2.研究Deep Web对查询结果页面的数据提取，提出了索引相似度相结合的数据抽取算法。通过记录查询结果页面中含有关键字的索引，并找到索引最大公共节点，确定查询结果网页的主数据区域；通过计算数据块之间和总的平均相似度，过滤掉平均相似度较小的数据块，舍弃总平均相似度较小的数据抽取结果，完成对主数据区域中数据块的提取。3.实验证明：上述框架和方法具有一定的可行性。该Deep Web数据源发现框架具有了一定的自适应性，可以减少框架中人工构建与扩展本体的资源浪费，索引相似度相结合算法提高了对Deep Web查询结果页面中实体抽取的查全率和查准率。

其他文献

IP QOS业务网管策略管理子系统的研究和实现

随着电信业务的引入,IP网的服务质量QoS(Quality of Service)成为下一代因特网的重要研究课题,业界已经提出了多种解决IP网服务质量的模型和机制.这些机制的引入,使操作管理

学位

服务质量策略框架QoS策略基于策略的网络管理

基于CELTS标准的网络智能授导系统研究

当前，随着人们对教育终身化、全球化的需要以及计算机、通信技术的飞速发展，网上学习正逐渐成为人们乐于接受的学习方式，基于计算机网络的远程教育系统开始在现今和未来教育中扮

学位

WITSCELTS分层知识网络初始编列过程导学

基于IPSec的VPN技术研究

VPN是指将物理上分布在不同地点的网络,通过公用骨干网联接成逻辑上的虚拟子网.为了保障信息在Internet上传输的安全性,VPN技术采用了认证、存取控制、机密性、数据完整性等

学位

VPNIPSecIKENATDoS

未知环境中移动机器人目标搜索方法的研究

机器人技术体现了当代科学技术的发展程度,被誉为“当代最高意义的自动化”,其研究涉及多门学科,涵盖了众多的研究领域。随着应用领域的不断深入,对移动机器人的智能性要求也

学位

移动机器人目标搜索环境探索场景复杂度粒子滤波SLAM

认证电子邮件协议及其应用技术研究

在总结分析三种认证电子邮件协议模型——无需可信第三方介入的协议模型、基于在线可信第三方的协议模型和基于离线可信第三方的协议模型的优缺点的基础上,针对现有协议方案

学位

认证电子邮件公开密钥基础设施

MPLS-VPN用于构建温州企业电子商务网络平台的技术解决方案

随着网络,尤其是网络经济的发展,企业规模日益扩大,客户分布日益广泛,合作伙伴日益增多,传统企业内部网络基于固定地点的专线连接方式,已难以适应现代企业的需求.于是企业在

学位

虚拟专用网多协议标签交换企业内部网企业外部网

指令级安全策略语言的设计与实现

该文介绍了我们从编程语言的角度为解决移动代码安全问题所做的研究工作,主要内容包括:1.我们阐述了这种方法的基本原理:就是利用编译手段搜集到程序的类型、结构等信息,在客

学位

互联网移动代码编程语言指令级安全策略

基于MANET与Internet互联的簇化模型及相关研究

近年来,随着MANET民用步伐的加快,人们对不受时空限制,在任何时间、任何地点访问基础设施网络资源的要求越来越强烈.人们期望通过MANET和Internet的互联,来拓展Internet的无

学位

MANET移动接入网络簇化服务质量负载平衡资源预留

基于跨媒体信息的跨语言实体匹配技术研究

学位

小额支付协议及其应用研究

从小额支付系统的需求出发,首先分析了PayWord这种小额支付协议.PayWord协议可以有效防止伪造和重复消费,但不能保证交易的原子性,也不能防止透支和抵赖,并且在多商家的情况

学位

电子支付小额支付协议安全性原子性网上支付

基于本体的DeepWeb数据集成方法研究

与本文相关的学术论文