基于语义的XML模式提取方法的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:cocoxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML (eXtensible Markup Language)已经成为数据表示和数据交换的标准,使用在各种各样的应用中。XML模式是XML数据交换、高效数据查询的基础,因此XML模式对于XML数据管理至关重要。但大部分的XML文档缺少XML模式信息,从XML数据中自动化的提取出XML数据的模式信息是XML数据管理的重要任务。传统的XML模式提取技术是对XML文档的结构进行提取,没有考虑XML文档中标签的语义信息,然而不同的XML文档的编写者使用的不同的标签描述信息,从而导致提取出的XML模式冗余和错误。因为,充分利用XML数据的语义信息,产生紧凑正确的XML模式是一个亟待解决的问题。本文提出了基于语义的XML模式提取方法。使用XML文档进行聚类,把相似度高的文档聚类在相同的簇内。分析簇内的XML数据,根据元素标签的语义信息和上下文环境,把元素划分为不同的元素类型。使用XML模式提取算法提取出每个元素类型的模式,最终提取出XML模式。基于语义的XML模式提取方法分成三部分:首先,对XML文档进行聚类,不同类型的XML文档被不同的XML模式描述,因此使用聚类技术把具有相似模式的XML文档聚集在一起,本文根据XML文档的标签名称和结构特点对XML文档进行聚类。其次,根据元素类型对XML元素进行划分。在聚类的簇内部,分析XML元素,根据元素标签的语义信息以及元素的上下文信息,把具有元素类型(即具有相同的模式)的元素划分在一起。把具有相同元素类型的元素标签名称以等价关系的形式写入到OWL本体中。最后,基于已划分的元素类型信息,根据元素类型的所有子元素序列建立自动机,对自动机进行简化,推导出XML模式信息。本文实现了基于语义的XML模式提取原型系统并进行了实验设计和实验结果的分析,实验表明基于语义的XML模式提取方法提取的模式更加准确和简洁。
其他文献
随着互联网技术的发展,数据增长的速度越来越快,实体解析的重要性也变得尤为突出。实体解析是将在同一个数据源或者不同数据源中,指向现实世界同一实体的元组识别出来并合并
无论是为防止恶意的破坏还是为保护自己的隐私这都需要对使用计算机网络的人们提供一定的安全服务,在现今最流行的TCP/IP协议簇的各个层次都有相应的安全措施。在数据链路层:WE
异构多核处理器集成的处理核心类型的多样性,使该类型处理器很好的支持了其特殊的应用程序(如信号处理,图像处理等)的实时调度问题,在这种情况下,实时调度就成为了多核实时领
本文主要研究小波变换在图像内容描述中的应用以及聚类分析在图像特征空间聚类中的应用,并建立了一个基于内容的图像检索的开放式实验平台。本文从颜色、纹理、形状等几方
  本课题旨在通过研究在不改变NC硬件的条件下如何修改NC操作系统来更好地支持NC上的应用。由于在一定应用背景下NC上的大部分应用程序符合局部性原理,可以对其操作系统进行
本文搭建了一个集成多个工具的数据库维护代码自动生成CASE系统。整个系统是以XML schema为基础的,系统的应用入口是一个功能比较简单的数据库建模工具——ERD设计器,利用这
计算机辅助设计技术的发展和应用水平已成为衡量一个国家科技现代化和工业现代化水平的重要标准之一。几何约束求解技术在现代计算机辅助设计的造型技术中占据核心地位。本文
软交换技术的核心思想是硬件软件化,通过软件的方式来实现原来交换机的控制、接续和业务处理等功能,各实体之间通过标准的协议进行连接和通信,便于在业务驱动的下一代网络中,
电力市场交易运营系统是为了适应我国电力市场化改革的需要,部署在电力调度(交易)中心的一套自动化系统,实现电力市场运营规则所要求的有关电力交易的各项业务,为电力市场中
几十年来,人们逐渐地认识到软件过程对于软件产品质量的决定作用。越来越多的科研人员在这个领域作了大量的研究并且取得了重大的成果,许多更适合于指导现代软件开发项目的软