基于XML的关键字查询算法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:conanjunn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML(eXtensible Markup Language)即可扩展的标记语言,是一套定义语义标记的规则,是Internet环境中跨平台的技术,其目的在于定义计算机和人都能方便识别的数据类型。随着信息技术的迅猛发展,XML已经被广泛地应用到数字图书馆、银行数据交换、电子商务、搜索引擎软件等领域,这使得XML数据成为关系数据之后新的主流数据形式。  随着XML应用的不断深入,如何简化XML数据的查询成为近来人们普遍关注的问题。XML结构化查询与XML关键字查询成为XML数据库新的技术发展方向。XML结构化查询一般要求用户掌握查询语言的相关语法机制和所查询文档的数据组织结构,这对于普通用户来说非常困难。而XML关键字查询只需要用户提交一些关键字信息,而无需掌握相关语法和数据组织结构,这大大方便了普通用户的使用。因此,本文研究的重点是XML关键字查询模式。  XML关键字查询中最紧致片段的定义以及高效的编码方法决定了XML关键字查询的性能和准确率,因此,XML关键字查询的核心问题是最紧致片段的定义以及XML数据的编码。  现有的求解XML关键字查询算法大多是以SLCA为语义,通常大量地进行LCA的计算,这需要反复地比较Dewey编码,而比较两个Dewey编码大小的时间复杂度为O(n),同时会造成公共祖先的重复访问,导致算法的性能下降。  因此,针对以上不足,本文的主要工作包括以下两个方面:  1.根据LTR(Level-Traverse)编码并结合ELCA语义,设计出自底向上逐层求解结果集的查询算法,提高了XML关键字查询的检索效率和准确度。  2.按照树的前序遍历顺序给每一个节点分配一个唯一的ID值,并根据ID倒排列表求出所有关键字的CA节点,最终求出SLCA结果集。实验证明该算法有效地提高了XML关键字查询的时间性能。
其他文献
当用户面对经过本体标注过的大量实例时,如何快速的挖掘出对用户有用的信息仍是研究人员迫切需要解决的问题。聚类作为一种无监督的分类方法是对大量实例数据处理的重要手段,但
随着科技的进步和社会的发展,机器人技术成为当今世界备受关注的前沿课题。与此同时,随着人类在非规整复杂地形的各种活动增多,以及对具有潜在危险区域或者人员无法进入区域
随着对算法运算速度要求的提高,一些用软件实现的算法已满足不了实时性的要求。因此,充分利用硬件电路的并行性和快速运行的特点,实现算法硬化,成为算法研究的一个新方面。本文工
随着互联网的迅猛发展,信息正在以指数形式飞速增长。通过互联网人们可以轻而易举地获取大量的信息,从而对自己的行为起着非常重要的指引作用。短文本是互联网中一种非常重要
随着二维条码技术的不断发展,不同于传统“图形”二维条码,出现了一种“文本”形式的新型字符二维条码。本文在对传统二维条码编码技术进行研究的基础上,对字符二维条码的编
关键词是指文档中具有专指性且能够反映文档主题的词语或短语。采用自动化技术从文档中抽取出关键词的过程称为关键词自动抽取。关键词自动抽取是文本自动处理中分类、检索和
随着社会生活节奏的加快和物质的极大丰富,人们对饮食质量的要求日趋提高,进餐者想要找到满意的食品难度越来越大。目前,大多数的配餐系统都是服务于特定的人群,且大部分都是基于
Web2.0和互联网技术成熟与进步促使用户产生内容逐渐成为用户使用互联网的全新方式。用户作为互联网资源的使用者,同时也作为互联网资源的创造者,让人与互联网的交互模式得到
随着并行计算技术和多核处理器的快速发展,应用程序的性能由单纯依赖于处理器频率的提升已经转向多核并行执行,而传统串行编程方式已经无法充分利用多核处理器计算资源获得性能
射频识别技术(RadioFrequencyIdentification,简称RFID)是一项利用射频信号通过空间耦合(交变磁场或电磁场)实现非接触信息传递,并通过所传递的信息实现目标识别的技术。随着物联网