论文部分内容阅读
实体统一是数据融合中的重点研究内容。传统的实体统一方法主要针对小数据集,重点关注统一结果的准确性,随着大数据时代的到来,传统的实体统一方法由于时间复杂度较高,难以处理海量的数据集,快速地筛选出有价值的数据成为大数据环境下更值得关注的问题。提出一种适应于大数据环境下的实体统一方法,通过数据分块、块内模式匹配以及块间模式匹配进行实体统一,其中,模式匹配采用了一种基于模式快速扫描算法,在尽量不损失精度的同时提高实体统一计算效率。结合Spark框架,基于DBLP数据集验证了该方法在保证数据实体统一质量的基础上具有