论文部分内容阅读
Web数据资源及数据集成引发了半结构化数据问题,半结构化数据指其结构隐含或不规整的自描述数据。由于缺乏独立于数据的模式,有效地查询或浏览该类数据比较困难。半结构化数据的模式发现成为解决该问题的基础步骤。本文提出的算法能够快速有效地发现半结构化层次数据中的规整结构,它采用自顶向下的生成方法,结合有效的剪枝策略,从OEM模型表达的半结构化层次数据中构造模式树。