基于查询语义的XML关键字查询算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:silent_control
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,人们可以通过互联网从世界各地接收和发送信息,而信息交换过程中的一个突出问题就是数据格式的异构性,这将极大地阻碍对信息进行有效地使用。XML的出现正是针对这一问题而提出的解决方案。随着计算机和网络技术的不断发展,XML技术的应用也将不断扩展。该技术不仅可以用于银行之间进行数据交换、证券公司对其上市公司相关的数据进行统计、图书馆对其馆藏书目进行查询检索、企事业单位对其文件档案进行管理,还可用于电子商务、搜索引擎软件、自动智能翻译等领域。在不久的将来,XML数据的规模将可能达到或者超过各种关系数据库中的数据规模,从而成为继关系数据之后新的主流数据形式。如何有效管理XML数据自然成为寻找突破口的数据库界的热点研究问题。   根据查询模式的不同,当前XML查询技术可以归为两大类:XML结构化查询和XML关键字查询。XML结构化查询要求用户掌握相关的XML文档查询语言和被查询文档的组织结构,这在实际中将给用户带来巨大的负担,将难以被大多数用户所接受。XML关键字查询的最大优点是其简单性,用户无须掌握复杂的查询语言,也无须了解任何数据的具体组织方式即可轻松提交查询。   本文对XML关键字查询的基础知识做了比较详细的介绍,包括XML文档结构、主流编码方案、XML关键字查询模式和XML文档的解析方法等。文中对目前主流的XML关键字查询算法做了详细的分析,由于目前大多数算法还是基于LCA概念或其改进的概念,在以满足这些语义概念的最紧致片段作为查询结果的算法中,以SLCA作为返回结果的算法最为成熟、性能也最好。本文重点分析了以SLCA作为返回结果的Stack算法,ILE和SE算法、LISA算法,并详细介绍了基于SLCA节点作为返回结果的查询算法的优缺点。针对SLCA语义的缺点,本文提出了两种改进算法,并通过实验证明本文提出的算法在查询准确率方面具有优势。
其他文献
随着处理器体系的发展,在通用多核处理器的结构上扩展加速核形成异构多核处理器平台,已经成为了高性能计算的趋势之一。在通用多核处理器上集成加速核,给处理核之间的互连方式的
短波语音通信环境下飞机类型识别是非合作通信相关方向一个新课题,无论是在民用领域还是在军用领域都有着广阔的应用前景,对国家安全非常有意义。利用短波语音通信环境下飞机驾
GPGPU的主要目标是利用GPU强大的并行计算能力进行通用目的的计算。为了支持通用计算,GPU的结构也开始针对通用计算优化,但GPU固有的SIMD工作方式依然是限制其性能发挥的巨大障
随着Internet的快速发展与深入研究,新一代网络技术及其应用已经对软件的形态、方法和运行环境提出了挑战。传统的封闭、静态的运行环境已经难以适应新的软件技术的发展。如何
定位问题是无线传感器网络(Wireless Sensor Networks,WSNs)研究中的基础性问题之一。在无线传感器网络中,确定所发生事件在监测环境的具体位置是十分重要的,众多学者对无线传感器
基于共享地址空间的多线程是有效利用多核资源的重要方式。并发线程对一些共享数据的竞争,成为影响应用性能瓶颈之一。严重的共享地址空间竞争,限制了大量的多线程程序的性能
量子信息科学是信息科学与量子力学结合的一门新兴交叉科学。量子信息科学采用量子比特来表示量子态。遗传算法是模仿生物自然选择和遗传机理,构造一种随机化搜索的人工智能算
软件系统在长期不间断的运行过程中,会产生一系列能够导致软件性能下降的现象,例如系统内存泄露、舍入误差的积累、未释放的文件锁以及大量的存储空间碎片等,这种现象被称为软件
随着全球信息化的不断发展,对地理信息系统(GIS)的应用也越来越广泛,例如电力GIS系统等。如今的GIS系统,不仅需要处理二维空间的数据,还要对三维或者更高维空间的数据进行处
伴随着科技的发展,大量的手持可摄像电子设备已经走进到广大群众的日常生活中,人们虽然在享受方便,快捷,丰富的各种多媒体信息,但是同时也感受到了对多媒体信息处理的各种困