基于语义的XML数据库获取机制研究

来源 :消费电子 | 被引量 : 0次 | 上传用户:hq520cyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文主要从基于本体扩展的XML查询代数和基于本体集成的XML查询重写两个机制来研究基于语义的XML数据库获取机制。
  关键词:XML数据库;查询代数;查询重写;获取机制
  中图分类号:TP311.11 文献标识码:A 文章编号:1674-7712 (2012) 12-0059-02
  一、引言
  语义分析是自然语言处理过程中的一个层次,是计算机理解语言的基础,因而十分重要。从自然语言处理的应用来看,信息获取、信息检索、机器翻译、自动文摘、人机交互等都应用到了语义分析,并且语义分析在这些方面也取得了一定的成果。基于现有语料库和语言现象分析,笔者主要从基于本体扩展的XML查询代数和基于本体集成的XML查询重写两个机制来研究基于语义的XML数据库获取机制。
  二、基于本体扩展的XML查询代数
  目前,人们已经提出了很多XML代数,著名的有:TAX,Xtasy,TTX等。其中TAX是扩展标记语言的树形代数(Tree Algebra for XML),它是关系代数的一个扩展,应用在TIMBER XML数据库管理系统中。Xtasy介绍了Xtasy XML数据库管理系统的基本代数,具有良好的优化特性和表达能力。TTX是一种针对XML文档的标记文本检索查询语言(Typed Text Retrieval Query Language for XML Documents),能够较好地支持网络和数据库相关的应用。
  笔者综合了XML代数表示方法,并对其进行了一定的扩充。主要思想如下:
  (一)主体上采用TAX XML代数的表示方式,即在XML代数中引入Pattern Tree和Witness Tree,并结合OrientXA对它进行了一定的扩充,将整个查询由三个Pattern Tree来定义,用Source Pattern Tree来表示查询动作或意向序列,用Constructor Pattern Tree来表示对结果的构造序列,用Update Pattern Tree来表示查询的更新操作序列。Witness Tree是Source Pattern Tree的实例。
  (二)在Pattern Tree的定义了结合XTasy、OrientXA的成果,即:①对于每一个节点,定义新的修饰符,主要是为了区别是节点绑定还是序列绑定,区分强绑定和弱绑定,并且区分是否连带进行子孙节点绑定。②对于每一条边,定义三种类型,即父子边、子孙边和元素属性边。
  (三)新增了适用于本体查询的操作符如~,instance_of、isa。is_part_of、below、above等。重新定义了大部分操作的语义及实现机制。
  (四)扩充了TAX中关于Wintness Tree的定义,使它支持基于本体的操作。
  下面笔者将对几个概念的重新定义如下:
  1.Source Pattern Tree
  一个Source Pattern Tree是一个二元组SPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
  (1)每个节点有一个惟一的标识符,并且有以下修饰符:①是否序列绑定?用双圆圈表示序列绑定,用单圆圈表示节点绑定;②是否强绑定?用实线圆圈表示强绑定,虚线圆圈表示弱绑定;③是否连带绑定所有子孙节点?用P表示需要连带绑定所有子孙节点。
  (2)每一条边表达了节点之间的关系,存在三种类型关系:①父子关系,用单实线表示;②祖先后代关系,用双实线表示;③元素属性边,用单虚线表示。
  2.Constructor Pattern Tree
  一个Constructor Pattern Tree是一个二元组CPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
  (1)节点定义如下:
  V:=v(TagName)[=val]|c(PID)
  val:=atom|PID
  其中,v(TagName)=val表示新建一个节点,节点名为TagName,节点值为val:c(PID)表示拷贝input pattern tree上特定PID节点。包括节点名、节点值以及所有子孙节点。
  (2)节点同时具有以下修饰符:是否序列构造,用双圆圈表示序列构造。序列构造只适用于拷贝构造节点。
  3.Update Pattern Tree
  一个Update Pattern Tree是一个二元组UPT:=(T,F),其中T:=(V,E)是一个有节点标识和边标识的树,F是一个谓词表达式的组合。T满足以下条件:
  (1)节点定义如下:
  V:=u(v.TagName)=val
  |u(v.TagName)=v.TagName
  |n(TagName)[=val]
  |d(TagName)
  (2)节点同时具有以下修饰符:是否序列构造,用双圆圈表示序列构造。序列构造只适用于拷贝构造节点。
  由于在XML代数中引入了本体及语义相似性判断机制,因此需要重新定义条件判数据操作符及条件判断的可满足性。因此,我们首先对TAX中的选择条件(selection condition)进行扩展,满足本体和语义映射及语义相似性判别的要求。
  4.选择条件(Selection condition)满足下列条件即为选择条件:
  (1)原子条件即为选择条件。
  (2)如果cl和c2为选择条件,则cl∧∨c2、cl∨c2和、┐c1为选择条件。
  (3)除此以外,不再有其他形式的选择条件。
  其中,原子条件(Atomic condition)由类似于X op Y的表达式组成。
  (1)op∈(=,≠,<,≤,>,≥,~,instance_of,isa,is_part_of,below,above);   (2)X和Y为条件术语,包括属性(attribute)、类型(type)、类型取值(type values)v:τ,其中V∈dom(τ),本体语义等。
  (3)~表示语义相似性判断。
  三、基于本体集成的查询重写
  在基于本体集成的环境下,在中介者组件中提供一个全局的语义环境,该语义环境通过前面所介绍的本体集成方法来构建,因此查询递交给各个节点来执行时,首先根据语义环境对查询进行重写。本节重点介绍基于全局本体的查询重写机制。
  为简化讨论过程,本文只讨论选择(Selection)操作的重写机制,在OrientXA中,一个选择操作可以表示为 (X)={x,x  在此,笔者讨论对Pattern Tree(即上面表达式中的x)进行重写的问题,可能会有下面几种情况:(1)X与Xl,X2,…,Xn概念同属于全局本体的上一个节点,而且Xi(1≤i≤n)分别属于不同局部本体的概念,即在进行本体集成时,来源于不同本体之间的概念语义相似度相同多个概念熔合为一个节点。
  四、结束语
  基于语义的XML数据库获取机制有如下的优点:
  (一)本文所介绍的方法部分地解决了查询中语义不一致的问题(Semantic Inconsistency),特别是语义不完全或语义缺失的问题。一个概念如果有部分属性值并不在本地本体中进行表述,而在另一个节点的本体中进行了描述,通过复杂映射机制,可以将两个本体进行合并形成一个完整的概念,相应的查询重写机制保证能完整地从两个节点获取满意的结果。
  (二)减小查询的冗余度,提高查询效率,对于分布于不同节点的概念之间如果存在相同的属性,则无须重新获取这些相同属性的值。
  (三)查询更加精确,通过语义相似度及扩展语义查询操作符可以获取更符合需要的结果。
  然而,采用这种机制进行数据处理也存在一些需要改进的地方,主要表现在下面几个方面:
  (1)首先是如何提高各局部节点包装器的语义映射表的复用的问题,各局部节点映射表中可能包含着相同的语义映射信息,造成信息的冗余,如何提高这些信息的利用率是一个需要进一步探讨的问题。
  (2)语义不一致的问题依然存在,例如各节点之间的语义映射关系相互矛盾。
  参考文献
  [1]龚慧.基于语义的XML模式到关系模式的转换[D].湖南师范大学,2009
  [2]蔺旭东.基于语义的XML查询及规范化研究[D].北京交通大学,2010
  [作者简介]陈晓飞(1975-),女,新疆尉犁县人,硕士,新疆工业高等专科学校计算机工程系,讲师,研究方向:计算机应用。
其他文献
在12319服务热线中构建与适用科学、合理、有效的考核评价体系,主要包括设岗定责、考核标准、考核内容、考核方式、考核结果应用、外部监督等方面。完善的考核体系,将极大地提
介绍了甲醇分离器的制造及设备法兰衬里的工艺过程。
介绍电热蒸馏水器自动拉制开关的设计制作过程及应用情况。
近年来,我国经济取得了突飞猛进的发展,交通行业也随之发展起来。铁路运输作为我国交通运输的重要组成部分,同时也是我国的一项重要基础设施,对我国社会发展起着重要的影响。本文
在高职高专院校中,后勤管理工作是一个主要组成部分,然而随着聘用制的推进,后勤管理队伍也面临了很多新问题。在新时期,后勤管理队伍建设必将关系到高职高专院校的教育教学工作开
本文通过实验建立了用火焰原子吸收分光光度法测定试剂碳酸锶中钙镁的含量。本法的测定范围钙为0.4~5.0μg/mL,镁为0.05~0.50μg/mL,检测极限钙为0.028μg/mL,镁为0.0013μg/mL,标
介绍了酸洗钝化的原理,奥氏体不锈钢压力容器酸洗钝化的常规工艺过程及其质量检验。
提到岗位培训,人们首先想到的是专业技术的学习、提升,目的是提高职工的业务技能。笔者认为,加强职工思想政治教育,提高职工思想政治素质,也应该成为岗位培训的一项重要内容,甚至应
国际动漫行业的迅速发展以及我国动漫人才的紧缺引起了国家对动漫业的高度重视,近几年国家从政策和资金方面都给予动漫业大力的支持,很多院校已经认识到开设动漫设计与制作专业