论文部分内容阅读
随着计算机网络的发展,许多复杂庞大的异构数据集应运而生。为了有效利用这些异构数据,通常采用数据集成的方法,其中模式匹配是数据集成的核心技术。然而,许多数据集具有典型的异构性,并可能存在有重复数据、缺失数据、模式信息缺失等问题,导致传统的模式匹配技术无法适用。为此,研究了模式信息未知或者不完整情况下的模式匹配问题,提出了应用信息论的模式匹配模型。该模型完全基于数据分布的特点而不依赖于任何外部知识,能够准确地计算出属性列之间的相似度,并有效地描述数据集中各个属性列数据的分布特点和属性列之间的关联关系。还