论文部分内容阅读
出处对于研究人员,特别是对科学家判断数据和实验的正确性和时效性尤其重要。随着数据库视图实体化技术和数据标注/修订技术的广泛应用,出处的研究正逐渐成为一个新的研究热点。合适的出处数据集是测试出处管理的新技术/算法的功能准确性和性能的基础之一,而在获得真实数据之前能够生成尽可能真实的模拟出处数据,对验证和改进算法同样具有关键作用。给出了一个新的出处数据库生成器ProGen,能够根据数据出处所使用的关系模式和出处上的标注约束来生成所需规模的出处数据库,实验表明所给出的实现是高效、可伸缩的。