论文部分内容阅读
本文对360度绩效评估系统中数据清洗子系统360-Cleaner的设计与实现进行了研究。主要内容如下:
⑴讨论了数据清洗过程中的关键技术,比较了各个方法的优劣性,提出了相应的改进方法,给出了解决数据清洗系统中的若干关键问题的相关策略。
⑵针对中文数据提出了一种基于向量空间模型的记录预处理机制。利用GBK编码特点以及等级法的思想,建立了中文记录与k维特征向量空间之间的映射。这种预处理机制为有效的实现数据清洗奠定了基础。
⑶提出了一个数据清洗算子RankedCluster<360>。RankedCluster<360>利用等级法和TF-IDF、cosine等概念与技术的特点定义了新的相似函数构造方法,并运用分级聚类的策略来解决相似重复记录的检测和消除问题以及对属性字段错误的识别和纠正问题。
⑷设计并实现了数据清洗系统360-Cleaner,并对其中的核心算法进行了相关的分析。通过该项目的实际应用可以证明,360-Cleaner能够有效地解决360度绩效评估领域内的数据清洗问题。