XML关键字查询中包含关键字的最小片段问题的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xchjzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML (eXtensible Markup Language)是被w3c基于标准的广义标记语言所创建,被用作定义语义标记。在Web服务、电子商务、数字图书馆等诸多网络相关应用领域已经成为描述数据的事实上的标准。为了方便用户从海量的XML数据中提取他们所需要的信息,许多XML数据查询算法应运而生,使得XML数据查询成为XML数据管理领域的一个热点。本文将这些XML数据查询算法按照查询模式描述的不同分为两类,即XML结构查询和XML关键字查询。前者多采用了正则表达式的描述方法,偏向于传统的结构化的查询方式,能够清楚的表述用户的查询意图;后者融入了信息检索领域常用的查询思想和方法,允许用户仅仅输入关键字就能够进行查询。XML结构查询算法根据精确的查询条件,能够输出理想的查询结果。然而,该算法对进行查询的用户也提出了更高的要求,即不仅要熟悉结构查询算法所采用的查询语言,而且还要了解待查询的XML文档树结构。以上要求对于绝大多数用户而言是不切实际的,所以从用户的角度出发,XML关键字查询是一种能够被广泛使用的查询方法。XML关键字查询方式中最关键的问题是如何求解包含所有关键字的最小XML片段,即SLCA (Smallest Lowest Common Ancestors)问题。目前已有许多求解算法,包括Stack、ILE、SE、LISA和LISA II等。ILE和SE在与Stack的实验对比中表现得效率更高,适合需要频繁I/O操作的海量XML查询,他们仅需要顺序读取XML数据一遍;相比ILE和SE, LISA和LISAⅡ在轻量级XML查询中,无论是在理论分析上还是试验对比中都表现出了更好的性能。然而,LISA不仅需要频繁扫描节点,而且需要引入集合交操作,耗费了大量CPU周期。LISA II虽然在避免不必要扫描方面改进了LISA算法,但却使用了自己独有的编码,不仅引入了编码映射,而且也使得该算法的通用性大大削弱。这两种算法即便作为一种仅在内存中执行的算法,以上缺点也影响了查询速度。为此,本文提出一种轻量级的、使用XML关键字查询通用的Dewey编码的新算法,BCS (Binary Comparative Search Algorithm),即二分比较查找求解包含XML关键字的最小片段问题。该算法有效地提高了搜索效率,对于数据量较大的XML树中,搜索效率提高尤其明显。BCS无论在理论分析上还是试验对比中,都表现出了较好的性能,是一种可行的最小包含关键字片段求解算法。作为一种新的XML关键字查询算法,BCS具有查询简便快捷、普通用户使用门槛较低、用户友好等的特点,但是也会存在查准率相对于XML结构查询算法较低的XML关键字查询的先天缺陷。
其他文献
单机批调度问题是最近十几年广泛研究的一个领域。在本文之中,我们首先针对给定n个工件和一个容量为B的单机并行批处理机器问题展开研究。每个工件Jj(j∈{1,2,…,n})具有一些
随着网络技术的发展和网络规模日益扩大,网络拓扑结构和网络设备日趋复杂,承载的业务种类也逐渐增多,这些都使网络中出现故障或性能问题的机会大大增加,网络监测面临更大的挑
作为一种新的信息获取方式,无线传感器网络(Wireless Sensor Networks,简称WSNs)已成为通信领域备受关注的研究热点。无线传感器网络是一种新型的无基础设施的无线网络,能够
随着计算机技术的发展,数字图像处理与分析技术在科学研究、工业生产、医疗卫生、教育、娱乐、管理和通信等方面得到了广泛的应用。边缘检测是图像处理与分析中最基础也是最重
内存已成为当前计算机系统性能的主要瓶颈之一,它的访问速度通常比处理器慢上数百倍。为缩小内存和处理器间的速度差异,cache得到了普遍应用。它对计算机性能的影响也随内存
大型复杂系统的模型往往需要通过系统分解的形式来构建。很多系统构建模型方法都只能构建静态模型,不提供对系统模型的模拟仿真,一旦模型构建出现问题,就需要对整个系统进行
音乐情感分析是人工智能的一个研究方向,研究目标是使计算机能够识别音乐的情感。目前音乐情感分析的研究成果主要应用在计算机自动作曲以及基于情感的音乐检索等方面。本文
多核并行系统中的任务调度是根据一定的调度规则和策略,将复杂程序的所有任务按照一定执行时序分配到并行分布的多个内核上,并行处理任务。这个问题是强NP完全的,是最难的组
当今时代随着计算机技术的高速发展,管理信息系统开始普及,各行各业都逐渐建立起自己的管理信息系统。这些系统运行一段时间之后,会形成大量的历史数据,但是这些系统不具备对
今天的Web Service技术早已失去了Web赖以成功的简洁性,它们并不像Web那样工作,并且正日益丧失其原有的优势。其实,Web背后的技术足以支撑强大的远程服务,这种服务可以延伸到