论文部分内容阅读
XML (eXtensible Markup Language)已经成为数据表示和数据交换的标准,使用在各种各样的应用中。XML模式是XML数据交换、高效数据查询的基础,因此XML模式对于XML数据管理至关重要。但大部分的XML文档缺少XML模式信息,从XML数据中自动化的提取出XML数据的模式信息是XML数据管理的重要任务。传统的XML模式提取技术是对XML文档的结构进行提取,没有考虑XML文档中标签的语义信息,然而不同的XML文档的编写者使用的不同的标签描述信息,从而导致提取出的XML模式冗余和错误。因为,充分利用XML数据的语义信息,产生紧凑正确的XML模式是一个亟待解决的问题。本文提出了基于语义的XML模式提取方法。使用XML文档进行聚类,把相似度高的文档聚类在相同的簇内。分析簇内的XML数据,根据元素标签的语义信息和上下文环境,把元素划分为不同的元素类型。使用XML模式提取算法提取出每个元素类型的模式,最终提取出XML模式。基于语义的XML模式提取方法分成三部分:首先,对XML文档进行聚类,不同类型的XML文档被不同的XML模式描述,因此使用聚类技术把具有相似模式的XML文档聚集在一起,本文根据XML文档的标签名称和结构特点对XML文档进行聚类。其次,根据元素类型对XML元素进行划分。在聚类的簇内部,分析XML元素,根据元素标签的语义信息以及元素的上下文信息,把具有元素类型(即具有相同的模式)的元素划分在一起。把具有相同元素类型的元素标签名称以等价关系的形式写入到OWL本体中。最后,基于已划分的元素类型信息,根据元素类型的所有子元素序列建立自动机,对自动机进行简化,推导出XML模式信息。本文实现了基于语义的XML模式提取原型系统并进行了实验设计和实验结果的分析,实验表明基于语义的XML模式提取方法提取的模式更加准确和简洁。