论文部分内容阅读
数据起源主要描述数据的来源及随时间演化的过程。最小化查询数据表的标识属性传播是一个亟待解决的问题。通过构建等值传播链表EPL描述查询中的等值连接及其传递性,并基于EPL给出朴素标识属性传播方法实现高效溯源信息传播。然而标识属性通过等值连接可以识别非标识属性数值,简单地传播数据表的标识属性数值导致起源数据冗余传播。为避免溯源信息冗余,提出完全标识属性传播格及其剪枝策略,给出基于格剪枝的最优标识属性传播方法,实现溯源信息的最小代价传播。基于TPC-H Benchmark和人造数据集IAP-DB的实验结果验证了