教务数据仓库中数据清理方法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:tianjuyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文述数据清理原理的基础上,着重从属性清理和记录清理两方面对数据清理进行了研究。在属性清理方面,为检测出异常的属性值,针对不同的数据类型采用了不同的方法,主要思想是利用元数据表对不同类型的属性值施加约束,将元数据表和应用程序结合起来检测异常的属性值;对于数据集中的缺失数据,研究了如何用贝叶斯分类方法来修补缺失值。   在记录清理中,改进了基于相似系数和的孤立点检测算法,改进后的算法不仅能检测出倍数异常孤立点,还能检测出分量异常孤立点,进一步提高了检测精度。此外,原有的相似重复记录检测算法在数据量大、错误多、单词间有相互影响,特别是单词中的插入、删除错误较多时检测能力不足。通过对原有方法的组合和改进,提出了一种高效的检测相似重复记录的方法,它能检测出常见的拼写错误如:插入、删除、替换、交换、单词交换,与以前的方法相比,此法时间复杂度小且精度有较大提高。
其他文献
  随着信息的爆炸性增长,对计算机的存储能力提出了更高的要求。海量信息的存储带来了另一个问题,信息怎么进行有效的处理。这就对计算机的计算能力提出更高的要求。使用单一
本文的主要研究内容有:对当前已经提出的各种索引技术进行了分析研究,首先给出了一个XML文档树数据模型的形式化定义。讨论了XML编码方法的研究和应用概况,并分析了当前比较流
关联规则挖掘是数据挖掘中的一个重要研究课题。它是搜索强相关的项集合的一个过程。挖掘一个超市数据库, 可以找到不同商品之间的销售联系(它反映了顾客的消费行为),例如:面
网络管理是计算机网络中一种非常重要的技术,它包括性能管理、配置管理、故障管理、计费管理和安全管理等五大功能。IP网络管理系统必须能有效地管理网络中不同的计算机系统
随着计算机技术及Internet的发展,网络规模的扩大,网络应用的不断增加,建立完善的网络管理系统保证计算机网络高效、稳定地运行显得非常重要。故障管理是网络管理的核心,而故障诊
中国在电子政务的建设过程中,为实现政府从单纯的管理职能向服务职能的转变,需要解决的问题之一就是建立为广大用户提供跨时间、空间的电子申请系统。如何快速的建立标准的电子
  交换机在第二层即MAC层必须具有转发功能。目前交换机上普遍使用的MAC层交换方式是IEEE802.1组织发布的标准:基于生成树算法的交换。为加速网络融合并解决与生成树和虚拟L
本文对中国人民解放军海峡之声广播电台基于网络的播控中心系统体系结构和功能进行了分析;针对系统建成投入使用以来实际应用中存在的不足加以研究并提出升级方案;其中重点对广
  数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类是一种数据分析形式,可以用于提取描述重要数据类的模型和预测未来的数据趋势。分类是一个两步过程。第一步
在当前Internet广泛应用的时代,用户要求更广泛和普遍的信息资源共享和处理。随着计算机网络技术的发展,人们对网络的依赖性越来越大,也更加关注如何合理、有效地利用丰富的