大数据下数据预处理方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:imlym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代下,数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐等内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战。数据预处理是数据分析、挖掘前一个非常重要的数据准备工作。一方面它可以保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。文中分析了预处理过程中的主要任务,总结了目前针对各类"脏数据"的几种常用的处理方法,重点阐述了数据在清洗、集成、变换和归约过程中的常用算法。通过各种预处理方法,清除冗余数据,纠正错误数据,完善残缺数据,甄选出必需的数据进行集成,使得数据信息精练化、数据格式一致化和数据存储集中化。在最精确、最可靠的最小数据集合上进行数据挖掘,大大减少了系统挖掘的开销,提高了知识发现的准确性、有效性和实用性。
其他文献
在3m×2m结冰风洞中,为实时监视风洞配套设备和试验部件防除冰状态,在风洞不同部段、三个试验段配套了电力线摄像监视系统和大屏幕显示系统。针对试验段摄像机处于低温、高湿
目的:探讨CXCR4特异性非肽类受体拮抗剂AMD3100对胃癌细胞增殖和侵袭能力的影响及其可能的分子机制。方法:Western blot方法检测不同转移潜能胃癌细胞系中CXCR4蛋白的表达水
斯维奇于2012年11月成功地在中国领先的整机供应商重庆海装公司的风电机组中首次安装了该公司的5MW高速传动系统。截止到2013年1月中旬,这台风机已成功实现连续运行,这是该公司
随着经济社会的迅速发展,城市化进程随之也加快,土地的价格越来越高。面对土地资源紧张和城市人口激增的矛盾,利用离层建筑容纳更多的人口、承载更多的商业及其他活动,越来越成为
作为堡盟升级后的新一代传感器,堡盟0500系列采用新型高性能光学传感器技术,集耐用性、安全性和易操作性于一身。尤其是易操作性,树立了新的行业标准。0500系列传感器的一大创新
日前,多元化的动力管理公司伊顿宣布,伊顿亚太区首个太阳能体验中心在深圳正式启用。
在内蒙古河套地区硫酸钠盐渍化土壤布置田间试验,研究种植草木樨和施用脱硫石膏(30 t·hm-2)对盐渍化土壤的改良作用与效果。结果表明:春季灌溉洗盐大幅度降低土体土壤p H值
水泥生产过程中不仅产生大量烟尘、粉尘,还生成二氧化硫、氮氧化物、氟化物、二氧化碳、一氧化碳等有害气体而污染大气。本文对现有水泥行业废气治理设备的应用与创新应用进
福禄克公司旗下子品牌雷泰Raytek,作为全球领先的红外测温仪供应商,推出了一种非接触式温度测量系统——装有DataTemp Multidrop软件的雷泰EMS设备监控系统,其可为有源元件或运转机械提供全天候的状态监控,并支持预测性和预防性的维护方案。EMS作为关键资产(包括开关设备和电气柜、电机、泵、燃烧炉控制和加热元件)的早期警告设备
IgG4相关性疾病(IgG4-RD)是一种与IgG4密切相关的系统性自身免疫性疾病。该疾病可累及多个系统,临床表现无特异性,主要表现为单个或多个器官弥漫性肿大,相关检查主要包括血清学