XML模式匹配技术研究

来源 :科技创新导报 | 被引量 : 0次 | 上传用户:sjmaomaoqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   摘要:目前随着Web上数据的倍增,针对庞大的信息海洋,人们面临Web上存在的两大问题:一是Internet速度非常慢,有时像爬行的蜗牛。二是即使可以在线获得各种信息,但是要找到所需要的信息却极度困难。这当中有硬件方面的原因,但最主要的原因是由于目前Web语言—HTML的性质引起的。
  关键词:XML模式 技术 研究
  中图分类号:TP393 文献标识码:A 文章编号:1674-098X(2012)02(c)-0000-00
  
  1 XML前景与特点
   可扩展标记语言(Extensible Markup Language,简称XML)的产生改变了Web的根本面貌。1998年2月,W3C(全球互联网联盟)给出了正式的版本XML 1.0,并且正式规定XML为下一代互联网标准。与HTML相比XML具有许多优点: ①XML很简单,进行自我描述而且易于解析。 ②HTML中的标记是不变的,不能进行扩展,可是XML的标记则由用户定义,能任意的扩展。③HTML中的标记表示方法是数据的显示格式,无任何语义,可是XML的标记就明确规定数据的含义,让细粒度的XML成为数据处理。④XML实现了结构、表现和内容三者的分离。
  1.1自描述性
   XML准许个人、各个组织建立适合自己的标志集合,这一特征可以让XML在电子商务、保险机构、政府文档、司法、出版、、厂商以及中介组织信息交换等领域进行广泛应用,面对厂商、不同系统提出独特的解决方案。
  1.2可扩展性
   XML在两个方面是可扩展的,首先它准许开发者创建自己的数据模式,以便创建多种应用的“可扩展”标记集。其次,它使用与XML相关的标准,这样对XML的扩展,同时这些扩展给XML添加了查询、转换、链接的能力,同时XML作为核心标准,它可以为创建其他标准提供了一个稳固的基础。
  1.3跨平台性
   XML不仅在多种平台上使用,还可以用多种工具对其进行解释,并对几种主要的字符编码作为主要标准支持,所以它能在全世界使用在许多不同的计算机环境中。只要在各系统装有相应的XML解析工具,那么就能理解它是以XML为中介把其他系统传递来的信息加以利用。
  1.4开放性
   XML的有关标准在Web上是充分开放的,能够免费获得。可是XML文档自己也比较开放,任何人都能够对一个结构的XML文档进行语法分析,得到可读信息。这样既能提供了数据模式,还能够校验这个文档的有效性。
  2 XML数据模式
   可扩展性是XML的一个重要特性,XML文档的作者能够定义任意文档数据的结构以及元素的属性和名称。可扩展性给文档的制作虽然提供了极大的灵活性,但是它也能使各种组织的应用程序间的数据交换很难得到实现,因为各种组织的应用程序对相同的标记名称也有不一样的理解。 XML的模式出现就是为了保证正确的XML文档的元素和属性,建立一个在数据交换过程中的标准。遵守XML模式,规范XML的文档定义为有效文档,当前应用最广泛的两种XML数据模式语言是XML Schemao和XML DTD。
  3 XML解析
   对XML文档进行操作的不是应用程序,而是首先由XML分析器分析XML文档,然后,通过XML分析器所提供的DOM接口或SAX接口应用程序对分析结果进行操作,对XML文档间接地实现了的訪问。不同的分析器来实现这些接口由,但是它们必须遵守共同的规范。针对XML出现的应用编程接口(API, Application Programming Interface)对于XML应用开发者来说是很重要的。应用开发者利用这些标准的接口来得到和设置XML文档中的元素、数据、属性、内容等。XML的应用编程接口中有四种: SAX、JDOM 、 DOM、 DOM4J。
  4 模式匹配方法研究
   在多数情况下,模式本身不能够反映它所代表数据完整语义。所以,在进行模式匹配时,一定要利用模式本身包含的一些信息(例如元素名称、数据类型、元素结构)进行匹配。假使用一种匹配器来考虑这些信息中的一部分,就不可以获得与之使用的多种匹配器,必须考虑多种信息的效果。因此使用用多种匹配算法能够准确、有效地发现模式成员间语义上的一一对应关系,能够达到模式匹配的精确度。模式匹配系统框架由以下组件组成。
   1、输入模式,由目标模式和原模式组成
   2、输入辅助信息。由缩词词典和同义词词典组成,用户利用这些词典扩充以后的匹配工作时能够得到很好的效果。
   3、仓库。数据库内存储分析后的输入的模式和辅助信息。
   4、匹配器库。主要有数据类型匹配器、字符串匹配器、名称匹配器和上下文匹配器组成。
   5、工作区。在这里进行基本匹配操作,其中包括匹配器执行和相似度合成。
  系统的匹配处理过程包括下面三个阶段。
  1、模式及辅助信息输入
   输入模式包括源模式Ss和目标模式So作为输入模式,在仓库内存储作为辅助信息的同义词词典以及缩字词典。模式及辅助信息作为输入处理阶段,它的主要工作包括对模式及辅助信息的分析和存储。通过不同的分析器模式以及辅助信息,在系统内的各种不同匹配器以完成匹配任务的形式被存储。
  2、匹配阶段
   在本阶段中,对经过输入处理的模式,执行匹配器库中的不同类型的匹配器。不同匹配器都根据各种的模式信息(包括名称、结构信息、数据类型等)计算出模式各元素之间的相似度。
  3、合成阶段
   合成不同匹配器的输出结果,要进行选出匹配候选。并依据匹配器的特征需求提前设定好各种合成权重、为匹配候选出筛选的闽值。在数据库很多应用中,如电子商务、面向web的数据集成、模式迁入或改进、数据仓库、应用改进、数据库设计、基于组件的开发和站点的建设与管理等,都要利用模式信息。然而在模式信息的操作中,匹配是最基本一个操作,就是将两个模式作为输入,找到它们的之间相关元素的匹配关系,接着输出两个模式元素间的映射关系。模式匹配的有下面几个方面主要应用:
  (1)模式集成
   当前,很多关于模式匹配的工作是应用于解决模式集成问题的,就是给定一个独立开发的模式集,创建一个全局视图。模式匹配能够在异构数据库之间确定数据集成点。因为模式是独立开发的,因此其具有不同的结构和术语,描述同一现实领域时,由于创建人的不同,其所处的环境不同,所创建的模式也会有各有不同。集成模式的首先是识别和特征化模式间的关系,关系被确定后,匹配元素统一表示集成的模式或视图。
  (2)数据仓库
   模式匹配的另外一个应用是将数据源集成到数据仓库中。一个数据仓库是从数据源集中提取数据作为一个决策支持。这个提取过程需要把数据从数据源格式转换成数据仓库格式,设计转换对匹配操作是很有用的。对于一个给定的数据源,我们可以通过查找在数据源中与数据仓库中同时存在的元素,从而得到一个匹配,实际上查找过程就是一个匹配操作。初始映射创建好之后,数据仓库的设计者就必须检查每个源元素的具体语义,接着创建可以协调该语义与目标语义的转换。
  
其他文献
该文通过对顶梁传统柱窝结构的研究,分析了此种结构不能满足大工作阻力液压支架可靠性要求的原因,并在此基础上提出了一种新型顶粱柱窝结构,最后通过立柱加裁模拟计算,论证了该种
虽然肾上腺皮质激素(简称激素)对肾病综合征作用机制不清楚,但该药仍然是治疗本病的首选药物,坚持足够的疗程是肾病综合征治愈及预防复发的要本措施.[1]由于激素疗程长,副作
介绍了美国红枫的整体特性,阐述了环境条件对美国红枫生长影响方面的国内外研究进展,包括气象条件、土壤、施肥因素。
眼外伤是主要的致盲眼病之一,现将我院1993年i月至2003年12月共收治258例264眼分析报告如下:
输液微粒系指存在于注射液中,外来的移动的不溶性物质,1985年中国药典规定,每"1ml中含10μm以上的微粒不超过50粒,含25μm以上的微粒不超过5粒",尽管药厂及各医院化实验室,灭
技术创新在企业发展中起着不可或缺的关键作用,是提升企业核心竞争力的重要途径。文章探讨了企业开展技术创新的意义和途径,并通过对福建海峡科化股份有限公司发展历程中开展
摘要:随着Internet普及趋势,为了解决传统考试一直以来出现的手工报名的弊端。提高和升级考试考务人员的工作效率,设计并创建出网上报名考试的系统。通过网上报名的服务,不仅可以方便的考生报名,还可以减轻考务人员的管理工作,连一步提高了考务管理的质量水平,从长远来看,能够为今后的后续考试研发做出前提工作,下文的从安奎的角度出发,发现和说明网上报名考试系统的设计原理,工作流程以及需要注意到的安全性问题
采用2阶DAA流固解耦技术,对水下爆炸载荷作用下细长体圆柱壳结构的鞭状响应进行分析研究。经模型试验验证后,对细长体圆柱壳梁模型随不同药包爆炸方位、不同爆距及不同低频振动
去甲长春花碱系一种新的长春花生物碱类化疗药物.对多种肿瘤,特别是肺癌,乳腺癌,卵巢癌,淋巴瘤疗效显著,故广泛应用于临床肿瘤治疗,但去甲长春花碱对静脉有很强的刺激作用,静