数据挖掘中数据预处理的方法研究

被引量 : 0次 | 上传用户:linyasa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代的科研和实际工作中,各行各业都需要对采集到的各种各样的数据进行处理。如何从这些海量的数据之中发现更深层次、更重要的信息,使之能够描述数据的整体特征,可以预测发展趋势,从而生成决策。这就需要进行数据挖掘。数据挖掘与知识发现过程中的第一个步骤就是数据预处理。统计发现,在数据挖掘与知识发现的过程中,数据预处理占到了整个工作量的60%。因为现实世界的数据往往是不完整的、含噪声的和不一致的,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。本文总结了目前数据预处理的常刚方法,并对其分析和思考。发现有些方法可以在数据预处理的不同阶段使用,分别达到相应阶段的预处理效果。在预处理中用到了许多的统计方法,但需要与实际的数据特征和专业知识相结合才能有效地应用。强调了在预处理的每一个步骤都要与专业知识和实际应用相结合。考虑到若在数据获得初期就有一定的指导,可以减少数据获取的盲目性以及不必要的噪声引入,且为后期的工作节约大量的时间和空间,因此认为应该把数据源的获取作为预处理的一个步骤。在预处理的实际应用过程中,上述步骤并不是相互独立的,而是相关联的,因而提倡对数据预处理采取循环的模式。最后针对银行房贷信用风险评估课题中所遇到的数据预处理问题,结合数据特征,考虑到与之相关的各个因素的内在相关性,使用一种基于全局的非线性相关分析技术,这是一种统计方法,来对该问题进行讨论,并且实证研究。
其他文献
本文分析了我国“非遗”保护法律环境现状及存在的“非遗”保护的主要法律依据和现行立法存在的两个主要不足主要问题,论述了越剧《梁山伯与祝英台》剧本版权纠纷案得出戏曲本
目的探讨脑积水脑室-腹腔分流术后患者并发颅内感染的原因与防治措施。方法对139例接受脑积水脑室-腹腔分流术患者的临床资料进行回顾性分析,总结患者术后颅内感染的发生情况
互联网时代的到来,催生了快递业务的繁荣发展,在高校这一人群密集集聚区,如何快速有效地将快递传递到师生手中,是各高校校园快递业务面临的一大挑战。本着服务师生、打造智慧
随着我国民航业的快速发展,航材在飞行保障中起着更加重要的作用,其中航材周转件在航材库存中占用着75%的库存资金。合理的备件库存服务水平,对保证航班正常运行,乃至飞行安
游戏是儿童的天性,对儿童的身心发展起着重要的作用。儿儿童早期就是游戏的时期,通过游戏儿童可以学习身体的、知识的、社会的和情绪情感的发展。随着科技的发展,越来越多的
创意产业、创意经济(creative Industry Creative Economy)或译成“创造性产业”,是推崇创新、个人创造力、强调文化艺术对经济的支持与推动的新兴的理念、思潮和经济实践,当
在船舶建造和修理过程中,T型接头焊接结构件大量运用于制造和修建的各个工序中,其焊接残余应力的存在,会直接影响到船体钢结构的强度和承载能力。由于现阶段控制和消除残余应
供应商的同步发展和增强实力,是大型品牌企业发展的的重要组成部分,两者是利益共同体。对一个大型企业来说,供应商的重要性是不言而喻了。广州OT公司成立于1997年,专注于产品
各种电力设施使用时的电气安全成为当前环境中的重大安全隐患。因而,建筑电气设计中的安全性以及节能性已经成为当前建筑电气设计中的要点。本文主要分析了建筑电气设计中的
我国的证券市场特别是股票交易市场成立于20世纪90年代,经过十几年的探索和发展,从无到有,逐步发展壮大,取得了举世瞩目的辉煌成就,已经从一个地方性的小型试点市场成功地演