论文部分内容阅读
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对.这种方法的难点在于关键字的选取标准缺乏通用性.这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录.