论文部分内容阅读
随着信息化时代的到来,各行各业都产生和积累了大量的数据,人们不仅需要管理和操作这些数据,更重要的是将这些异构的数据进行关联、集成之后,进行相应的分析能产生巨大的价值。大数据集成中用到关键技术之一就是实体识别,也是大数据集成的基础。在海量、异构、含噪音的大数据环境中的实体识别工作,一般需要使用模式无关的分块技术降低两两匹配的记录数,同时又需要能够快速高效完成实体匹配工作。因此,本文针对大数据集成中的实体识别技术,主要研究其分块技术和匹配技术两部分。第一、针对实体识别工作中传统的依赖先验知识的分块算法无法应用到大数据集成工作中这一问题,本文研究提出了一种基于token的模式无关的分块技术,通过增加冗余比较来完成海量、异构、含噪音的大数据环境中的分块工作;同时,在Meta-blocking技术基础上提出了一种新的基于累积权重的剪枝方案,能够进一步帮助降低分块后块内产生的冗余比较,进而达到提升效率的目的。最后在真实数据集上通过仿真实验验证,将所设计的基于token的模式无关分块技术和基于累积权重的剪枝算法与已有的技术做了分析对比,实验结果证明本文算法能够高效的在异构、噪音环境中完成分块工作,是可行的、合理的。第二,针对实体识别中实体匹配阶段的效率问题,本文基于局部敏感哈希的思想扩展了传统的N-gram算法,并重新定义了传统的基于海明距离的局部敏感哈希算法中的距离度量公式,解决了局部敏感哈希算法无法应用到短记录匹配中的缺陷。通过这些技术,既能应对大数据环境中的噪音问题,又能够在实体匹配中使用局部敏感哈希技术达到快速完成记录匹配的目的。最后在数据集上通过仿真实验验证,将所设计的基于局部敏感哈希的N-gram算法与已有的技术做了对比分析,实验结果证明本文的算法能够有效提升实体匹配工作的效率,是可行的、合理的。