【摘 要】
:
在过去的几十年中,关系数据库的广泛应用、计算机硬件能力的不断提高、互联网的飞速发展,使人们处理数据和收集数据的能力大大提高,从大量数据中提取信息的要求显得越来越迫
论文部分内容阅读
在过去的几十年中,关系数据库的广泛应用、计算机硬件能力的不断提高、互联网的飞速发展,使人们处理数据和收集数据的能力大大提高,从大量数据中提取信息的要求显得越来越迫切.技术的推动和需求的推动使数据仓库、联机分析处理、数据挖掘技术得到了快速的发展.但是现实世界的数据常常是不完整的、存在噪声的和不一致的,为了支持正确的分析决策,必须对数据进行清洗.缺失值是实际系统中常见的重要问题.该文针对在实际项目中遇到的问题,根据不同类别的缺失特性,利用了与缺失值相关的其他属性的值,采用不同的分类方法预测缺失值.该方法和一般的方法相比,有更大的机会保持缺失值和其他属性之间的联系,得到最有可能的值,从而比较好的反映实际情况.该文主要做了的以下几个方面的工作:1)设计并实现了使用分类方法处理缺失值的方法.考虑缺失值与其他属性之间的联系,通过训练数据和分类算法得到分类规则,然后把分类规则应用到含有缺失值的数据,对缺失值进行填充.2)设计并实现了缺失值处理中的预处理方法.预处理过程对数据进行了属性相关性分析、属性的分割与集成、属性的离散化等处理,使得对缺失值的处理更加有效.3)针对实际数据情况,选择实现了不同的分类算法——判定树分类和朴素贝叶斯分类.通过对分类方法的研究,对于数据量较小的情况,选择了判定树分类算法,而对于数据量大的情况,选择了朴素贝叶斯分类算法.4)设计并实现了基于分类方法的缺失值处理工具的原型系统.用户可以通过原型系统方便的创建、修改分类模型,用图形化的方法查看分类模型的分类规则,通过分类模型对缺失值进行填充.并把系统应用到实际的缺失值处理的过程中,取得了很好的效果.
其他文献
心电信号分析主要包括信号的预处理以及信号的特征分析两大部分.该文主要研究了心电信号的预处理技术、QRS综合波检测技术、ST段分析技术.其中,心电信号的预处理分析研究了几
定位技术、通信技术和计算能力的快速发展催生了轨迹大数据,海量的轨迹数据中蕴藏着丰富的有价值的目标活动信息。这激发了广大研究者对时空轨迹数据挖掘任务进行大量的探索和
针对岩体失稳声发射信号具有非线性、非平稳的特点和在采用传统变分模式分解VMD算法对岩体失稳声发射信号去噪时分解参数K难以确定的问题,提出一种基于改进VMD算法的信号去噪
水声数据采集装置对于水声试验来说是不可缺少的,由于水底的自然环境极其复杂,这就要求我们所采用的数据采集器能够适应水下恶劣的自然环境,因此所采用的数据采集器应具有较大的
当今社会,是一个通信技术日益发达,信息技术蓬勃发展的社会,这就极大地丰富了高中英语的教育资源与环境,为高中英语教育提供了丰富有效的平台和载体.互联网的发展为教育教学
常言道“良好的开端是成功的一半”,作为课堂教学的首个重要环节,课堂导入的作用不容忽视.成功的课堂导入不仅能够抓住学生的注意力,更能激发其学习兴趣和课堂积极性,同时,还
随着素质教育的发展和国学热的兴起,古诗词成为复兴传统文化、提升学生人文素养的重要文本依托.在传统的以考试为导向的教学中,古诗词学习主要是让学生对文中的重点字词进行
在现代教育教学中,如何提高学生的学习效率已经成为重中之重,为此,一些教育工作者通过研究提出了一种极为有效的教学方式——导学案教学.新课程提出,除了对于学生书本知识方
我们首先研究了主动网络的体系结构.给出了主动网络的一种模型.然后研究了主动网络中的网管系统平台,即主动网管系统(ANM).主动网管系统是一个借助了主动网络的技术,使用分层
该文主要对其中的盲线性多用户检测进行了研究,主要内容如下:1.1998年,Xiaodong Wang使用信道子空间盲估计算法提出了一种基于子空间的盲多用户检测算法,从而为盲多用户检测