数据预处理中数据缺失填补算法的研究与应用

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:kj8231926
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着技术的发展与科学的进步,数据量的飞速增长已成为一个不容忽视的问题,面临堆积如山的数据,想要获取有用的信息与知识并非易事。因此数据挖掘技术伴随着人们的需求与科技的进步获得快速发展。然而在实际应用时,缺失数据的出现对所有数据分析技术包括数据挖掘都是一个普遍存在却富于挑战性的问题。   缺失数据的产生因为多种多样,有主观上人为的也有客观上的难以获取。它们广泛存在于现实的数据集中,对数据分析产生严重影响:首先,系统丢失了大量的有用信息,明显削弱了信息与统计的能力;其次,增强了系统的不确定性,使得正常的数据分析方法不适用或难于应用;最后,包含缺值的数据还会使挖掘过程陷人混乱,导致不可靠的输出。因此如何正确处理这些缺失数据成为数据预处理过程中核心问题之一。   缺失填补技术无论是在技术还是理论上都得到了空前的重视,国际上已有大量专家及研究机构对些问题进行深入研究。本文首先论述了缺失数据填补的意义及研究现状,通过分析近年来出现的缺失填补策略,将其分成基于分类、聚类、关联的三种填补思想,在此基础上提出一种新的缺失填补算法。通过对当前几个开源挖掘工具预处理模块的研究,设计了一个处理缺失数据集的预处理模型,并通过研究基于分类思想及关联思想的填补策略,对设计应用于模型中新的缺失填补法,规则近邻法进行详细设计实现,通过实验对其填补的有效性,准确率进行验证。   实验用5折交叉验证法证明算法的有效性;并通过与KNN填补算法进行对比证明该算法在填补准确率上的优越性;通过增加缺失比例及改变提取规则的最小支持度与置信度确定影响该算法填补准确率的因素;面对连续数据集中的缺失值,通过分析对比选择基于MDLP的方法进行离散化,并通过扩大离散化的粒度对填补的准确率结果进行分析,指出要使填补获得好效果并非离散粒度越大越好;填补算法应用于离散化后的数据集进行与离散数据集相似的实验,证明此算法对连续数据集缺失值填补的有效性。最后对全文进行总结及下一步工作需要改进的地方。
其他文献
作为Web2.0时代具有代表的社交平台,微博已经成为了一种主流的信息分享和交流的平台,微博营销也应运而生。微博营销是一种新型的网络营销方式,商家通过在微博上发表与商品主
随着全球经济一体化和信息技术的发展,许多企业都完成了基础设施的信息化,并逐步走向协同化。由于企业内部管理水平的不断提高和外部市场竞争的日益激烈,单靠产品销售获得的
随着云存储技术的快速发展,使用云存储保存或者备份数据的企业或者个人也越来越多,用户在使用云存储服务时更加注重数据的安全性,而数据安全保护技术主要是通过对数据进行加
信任评价模型可以解决网络中的一些安全问题,但是当网络中的节点数目非常大时,现有全局信任模型的计算量与通信开销比较大,影响了信任模型的推广和应用。针对该问题,本文在参
近几年来基于P2P技术的网络应用迅速发展起来。有关的研究人员认为,P2P技术的应用将使网络上的资源得到充分利用和最大化的共享。P2P技术在内容分发、实时通信、协同工作、以
粗糙集理论作为粒度计算的三大模型之一,自产生起就备受关注,并已广泛应用与机器学习、模式识别等领域。其主要内容包括近似集、决策系统、数据预处理以及属性约简等等,是一
随着数字电视广播技术的发展,数字电视接收系统的研究与开发已成为新的发展方向。龙芯处理器以其低成本、低功耗、指令级并行等优点广泛应用于嵌入式领域。本文基于龙芯2E处
随着网络的普及和应用,越来越多的软件系统部署在Internet上,由于网络平台与传统计算机软件平台特征上有很大的不同,促使软件系统的运行环境从静态、封闭逐步转向动态、开放
时间序列分类是时间序列数据挖掘的重要任务之一。它比普通分类问题困难的主要原因是时间序列数据长度不一致,而一般的分类算法只能处理长度相等的数据。即使是长度相等的时间
随着现代信息技术的不断发展,学校的各项业务也逐渐智能化、信息化。其中,最为显著的就是校园一卡通的应用。本文以山西师范大学校园卡关于学生就餐交易数据为研究对象,通过