论文部分内容阅读
为了保障数据质量,在进行数据分析之前必须进行数据清洗,而相似重复记录检测是数据清洗中的重要环节。以前的相关研究大多是领域无关的,本文面向专利数据领域,从专利文献自身的特点及专利分析需求出发,认为专利中相似重复属性的检测与相似重复记录的检测同样重要,提出了基于IRPU算法的专利数据相似重复属性及记录检测方法。实验结果表明,该方法适用于专利数据领域,具有较高的识别精度。