基于FTContainsExpr的扩展模式树匹配技术研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:youluxihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML采用树形模型来表示数据,XML文档上的查询通常被表示成小枝模式。与此同时,XML文档上关键字的检索也因其直观、友好的查询接口而被广泛研究。为了更好地整合数据管理领域与信息检索领域对XML文档查询技术的研究成果,W3C提出XQuery Full-Text作为XQuery的补充。它可以对XML数据中的结构信息与文本信息进行无缝地查询。本文针对XQuery Full-Text中具有合取关键字查询语义的FTContainsExpr表达式提出了相应的扩展模式树及其模式匹配问题。扩展模式树匹配问题由于关键字包含关系的引入而呈现出问题的特殊性。我们首先针对该问题设计了基于Dewey编码的解决方案,DILPathStack算法和DeweyPathStack算法。DILPathStack算法首先计算关键字结点的SLCA,然后利用它们来指导DeweyPathStack算法对结构化路径进行匹配。SLCA的计算可以有效减少在DeweyPathStack算法执行过程中各数据流无效结点的入栈,避免了无意义的栈操作,从而使得整个匹配过程更加高效。然后,针对DILPathStack算法和DeweyPathStack算法仍然存在的弊端,我们提出了基于区间编码的、直接对所有扩展模式树普适的匹配算法ILETwigStack。它对扩展模式树进行了重构,将扩展模式树中的每个关键字结点组收缩归并为一个查询单点,以它们的SLCA数据结点流来取代原始关键字结点流,重构后的扩展模式树能够用TwigStack算法进行匹配。这种方法既降低了扩展模式树的结构复杂度又大量减少了初始数据流结点的数量。实验结果表明,在对扩展模式树的处理效率上,ILETwigStack算法均胜于DILPathStack算法和传统的TwigStack算法。
其他文献
随着计算机与网络技术的普及和推广,工作流技术的研究与开发成为了一个新的热潮。但是,由于工作流是新兴领域,现有的工作流的技术研究还不够成熟,所以工作流安全方面的研究,
传统的分类问题通过对大量有标记的训练样本进行学习,从而建立用于预测无类别标签的样本的模型。但在许多实际的分类问题中,如图像分析、网页分类、疾病检测、信用评级等,所得到
XML已经成为W3C制订的Web上的数据表示和数据交换的标准,需要通过Web交换和处理的XML数据在大幅度的增加,这就对XML的数据模式提出了更高的要求。设计一个好的Schema的中心目
在无线通信技术与计算机网络迅猛发展的背景下,移动Ad hoc网络以其移动自组、多跳通信等特性引起了人们的广泛关注。移动Ad hoc网络(Mobile Ad hoc Network,MANET)是由一系列
随着后PC时代的到来,嵌入式技术以其灵活、高效、高性价比的优点被广泛应用在国防、消费电子、信息家电、网络通信等方面。嵌入式操作系统作为嵌入式系统的灵魂,提高了嵌入式系
XML技术的迅速发展使得它的应用范围和重要性已经超出了其本来的制订预期,在数据表达和数据交换的应用发展上起着重要的作用。时态数据库的发展和Internet的广泛应用,使得时态
当今世界科技发展日新月异,综合国力竞争日益激烈,这些都要求我们大力发展科学技术,提高自主创新能力。立足于国内外发展现状,我国在科研管理过程中,运用不同评价指标进行量化的办法虽然在一定程度上提高了科研人员的研究热情,但是各个评价指标往往限于孤立,对于个体科研人员的科研能力缺少综合评价,而且存在评价结果不够客观、准确性差等问题。针对科研人员项目申报的能力与个人承担项目、成果、收录转载文摘、奖项之间存在
随着P2P技术在社会生活中的广泛应用和人们对匿名应用需求的日益增长,人们迫切希望某类P2P系统能提供很好的匿名性。传统的匿名通信应用受其系统架构的影响,往往采用代理服务器
目前无线局域网WLAN已经得到了十分广泛的应用,各种便携式移动终端也日益普及,使用户对移动性的需求不断增强。由于WLAN中AP(Access Point)功率有限导致其服务范围较小,用户
随着无线通讯技术、微电子技术及嵌入式计算技术的快速发展,无线传感器网络的应用范围越来越广泛。但是,由于无线传感器网络自身的固有特点使得传感器节点感知的数据往往存在大