360度绩效评估系统中数据清洗子系统360-Cleaner的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:liongliong440
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对360度绩效评估系统中数据清洗子系统360-Cleaner的设计与实现进行了研究。主要内容如下: ⑴讨论了数据清洗过程中的关键技术,比较了各个方法的优劣性,提出了相应的改进方法,给出了解决数据清洗系统中的若干关键问题的相关策略。 ⑵针对中文数据提出了一种基于向量空间模型的记录预处理机制。利用GBK编码特点以及等级法的思想,建立了中文记录与k维特征向量空间之间的映射。这种预处理机制为有效的实现数据清洗奠定了基础。 ⑶提出了一个数据清洗算子RankedCluster<360>。RankedCluster<360>利用等级法和TF-IDF、cosine等概念与技术的特点定义了新的相似函数构造方法,并运用分级聚类的策略来解决相似重复记录的检测和消除问题以及对属性字段错误的识别和纠正问题。 ⑷设计并实现了数据清洗系统360-Cleaner,并对其中的核心算法进行了相关的分析。通过该项目的实际应用可以证明,360-Cleaner能够有效地解决360度绩效评估领域内的数据清洗问题。
其他文献
近年来,Internet的快速发展使其不再局限于共享和交换数据,它已经成为计算机软件的基础运行支撑平台。这个开放、动态、难控的平台对软件系统服务质量的影响很大。为了维持软件
随着现代军事的发展,军事标绘软件在军事上的应用越来越广泛,计算机军事标绘是指挥自动化的一个重要组成部分。随着计算机标绘软件开发的深化和软件开发技术的不断发展,军事人员
近年来,随着社交网络的蓬勃兴起,新浪微博作为我国最大的移动社交平台也得到了迅猛发展。由于微博具有即时性、互动性等典型特点,这为热点事件的发布、传播与扩散提供了一种非常
随着数字技术和因特网的发展,各种形式的多媒体数字作品被通过网络进行传输,然而数字作品的便利性和不安全性是并存的,它可以低成本、高速度地被复制和传播,这样就为创造者和使用
GIS系统中含有大量的空间数据和属性数据,有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息,隐藏着丰富的知识。但是现在的GIS系统仅能进行数据的收集、查询和简单的
随着Internet的快速发展与普及,无线网络、移动设备、嵌入式系统以及传感器技术的进步,计算机应用模式开始从“人围绕着计算机”到“计算机围绕着人”的转变。为了使计算机应用
随着计算机技术和GIS技术的发展,特别是网络通信技术的发展,空间数据共享日益普遍。管理和访问大型数据集的复杂性正成为数据生产者和用户面临的突出问题。数据生产者需要有效
进入二十世纪八十年代以来,世界上几乎所有发达国家已相继建成了国家级的教育和科研计算机网络,并且相互连成覆盖全球的国际性学术计算机网络Internet。“中国教育科研计算机网
在直销业高速发展的今天,经销商的增多及公司规模的扩大使得公司原有的管理系统难以满足直销业信息化建设的需求,从当前直销业的发展特点和现实状况出发,在充分考虑直销业经营发
当前,计算机辅助设计和绘图(CADD)技术在建筑设计领域内已经得到了广泛的应用,早已实现八十年代初国家科委提出的“甩图板”的目标,减少了设计人员的工作强度并大大提高了设计和