论文部分内容阅读
随着XML应用的普及,对XML文档查询的要求也就越来越高。如果不在XML文档上建立索引结构,那么针对XML数据的任何查询都很可能导致对整个文档树的遍历。对于海量的XML文档这种遍历所花费的开销巨大。因此,建立高效的索引用来查询XML文档成为近来研究的热点。在已有的索引结构中,ViST是一种功能强大的索引。然而,当查询一个XML路径是否存在于XML文档中时,其效率十分低下,并且其搜索结果也可能与XML原文档不符。本文提出了新的索引结构:一种结构编码与簇集索引相结合的XML混合索引(简称HiSC)。XML文档中的每条路径被编成结构编码序列,这些序列与XML树中结点序列一一对应,并将XML树中结点分类保存。查询时,对查询路径进行结构编码,然后将这些编码与XML文档的结构编码进行匹配,找出文档中所有可能的路径。此索引通过减少访问不符合查询条件的数据来提高查询的效率,其查询结果更加精确且包含更多结构信息。同时,HiSC还支持关键字查询。通过在标准的XMARK样本数据集上实验,表明此索引结构在具有高的效率同时具有高的准确性。时态信息处理技术的应用领域越来越广阔,并有向多元化的方向发展的趋势。由于时态信息数据的海量性以及时态信息存在方式的异构性,时态信息处理日益多样化和复杂化。因此,可以将XML技术与现有一些时态技术相结合,从而有效处理时态信息。本文提出了一种支持时态XML文档的模型。此模型支持XML文档保存事务时间和有效时间。通过对标准的XML Schema进行扩充,使XML文档能够保存时变数据。为了更好地支持时态查询和更新,将时变数据分为历史数据和当前数据,采用不同的结构,分别存储。在此基础上提出了时态XML文档更新的方法。从理论上证明此模型同时满足时态一致性和路径一致性。