论文部分内容阅读
在错误数据集中进行知识发现是当前数据挖掘研究中的一个热点问题。以往的算法往往需要大量的先验知识或假设,同时会造成数据浪费。该文在总结以往对于错误数据预处理的一般方法的基础上,对关系型数据库常见错误类型进行了分析,提出利用数据可能性构建模糊数据库的方法对数据预处理过程中的可疑数据进行处理,并比较了该种算法与传统算法之间的优缺点。可以看出,该文的算法较好地解决了先验知识缺乏和数据浪费等问题,利用模糊化的方法来对数据库中的可疑数据进行处理是一个十分有价值的研究方向。