基于本体论的Web数据模型化方法与查询处理研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:a1390749
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,万维网上的可用信息越来越多,并且仍然在迅速地增长,如何发展数据库技术使之能对Web数据进行有效的检索和查询,已经成为当今网络和数据库领域共同关心的问题。人们的期望是:能够象查询数据库一样查询Web数据,要求既要简单,又能够表达比较复杂的查询请求,返回的结果又要尽可能的准确。 为了实现对Web的查询,首先需要选取一个方法来模型化底层的领域,特别是需要模型化Web本身,Web站点的结构,Web页之间的连接结构,以及采用更精细的粒度模型化Web站点等内容。由于Web上的数据具有分布性、动态性、关联性、半结构化和无模式等特点,所以需要采取一种新的模型化方法。为此,本文提出了一种灵活的Web数据模型化方法,这个方法使用Ontology对Web上特定领域的数据模型化,而后使用概念模式来描述要存储的数据和它们之间的关联。这种方法的好处是:系统可以根据特定领域的Ontology来对提取得到的数据自动建立和维护数据的概念模式,不要求事先给出一个模式,也不要求保持很强的约束条件,系统可以根据Ontology自动发现数据对象以及它们之间的关联,而在概念模式上提供的查询语言为表达复杂查询请求提供了有力手段。 为了使用户能够直观、简洁的表达他们的查询请求,本文提出了一种视图模式查询表达方法,查询的视图可以由用户自己来选择,用户可以在这个视图上很容易地表达查询请求,它的优点在于不需要用户了解数据模式信息,只需根据他们的实际查询请求来选择视图即可,同时它可以表达很复杂的查询请求。 论文的另一部分工作集中在查询处理和优化策略的研究上。与搜索引擎和传统的数据库相比,根据在数据模型,底层数据存储策略,以及索引方式等方面的不同,需要设计一种新的查询处理和优化策略。据此,本文提出了一种存储策略和优化方法,它可以适用于不同的底层存储,有效地去除那些对最后查询结果没有用的数据,实验结果表明我们的优化策略十分有效。 为了检验上述理论研究,文中设计并实现了一个以Ontology为核心的Web数据引擎原型系统—SESQ。与其它相关系统对比,它具有能够从不同类型的数据源中提取数据;根据领域的Ontology自动进行相关数据的扩充;提供了一个强有力的可视化查询界面,通过这个界面用户可以很容易地表达比较复杂的查询请求等特点。
其他文献
对国内外数据挖掘研究情况分析可知,以往的关联规则算法在稠密数据集上阈值很高的时候将耗尽内存空间;单纯的关联规则挖掘忽略了事务的时间特性;而低概念层的数据项之间很难
作为Internet上最基本、最重要的服务之一,电子邮件有着方便快捷、廉价等特点。它的广泛使用,使它渐渐成为人们生活的一部分。随着电子邮件涉及内容的重要性的提高,电子邮件系统
该文首先论述了入侵检测系统的模型和入侵检测常用技术.然后,对基于Snort的网络入侵检测系统原理进行了剖析.在此基础上,结合性能测试实验,对入侵检测系统的性能瓶颈进行了分
计算机视觉技术和网络技术的不断发展促进了服装行业的快速发展.基于Web的电脑试衣系统,就是计算机科学技术和网络技术在服装行业的应用.研究该系统的目的就是让人们快速地购
网格计算被称为“下一代网络计算技术”。它通过新的组织方式将广域网上的各种计算资源、信息资源、设备资源等集成起来,以统一的方式向用户提供服务,是当前网络计算领域的研究
监控技术的发展可以分为三个阶段:模拟图像监控阶段,数字图像监控阶段和网络多媒体监控阶段.网络多媒体监控系统是电子技术、计算机技术、通信技术相互结合的产物.稳定可靠的
该文在指纹自动识别这个课题上开展了一些研究.指纹图像数据量大,通过直接比对指纹图像的方法来识别指纹是不可取的,应该先对指纹图像进行预处理,然后提取出指纹的特征数据,
互联网和电子商务的快速发展使得网络信息急速增长,多元的网络应用给人们带来了便利服务的同时,也让人们深陷“信息过载”沼泽。对于需求清晰的用户,借助搜索引擎便能快速找到目
该论文以研究Agent技术在B2C网站中的应用为核心,构建了一个功能比较完备的智能购物系统.它能够根据用户的浏览过程和消费行为,建立用户个性化模型数据库,预测用户消费行为,
在信息化迅速膨胀的海量数据时代,数据的存储、管理以及分析处理等方面面临诸多挑战与机遇。其中在数据中存在着大量不确定性因素,这些不确定性带来了一定的概率存在,使海量