数据预处理算法的研究与应用

被引量 : 0次 | 上传用户:sdwtb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息,与此同时,这些数据的规模还在以惊人的速度不断增长。因此,为了提高工作效率和生活质量,人们必须获取蕴藏在这些数据中的有价值信息。为了达到这个目的,人们开始致力于从数据库中挖掘知识的研究。然而,众所周知,数据库中往往存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中挖掘知识之前必须对数据进行预处理。 本论文着重研究数据挖掘中的数据预处理技术,尤其是数据清洗技术,并实现了数据挖掘试验平台(Data Mining Laboratory, DMLab)的数据预处理模块的功能。 首先对数据预处理知识做了全面和详细的描述,介绍了数据预处理的研究背景、定义和主要的预处理技术研究现状等。然后对现有的数据预处理技术进行了深入的分析,涉及到数据清洗、数据选样、数据变换和数据归约等技术。之后重点对缺失值填充技术及各种填充算法进行了深入地研究和探讨,并提出了基于聚类技术的缺失值填充法。最后,在前面讨论的各种技术的基础上,实现了数据挖掘试验平台的数据预处理模块功能,主要包括数据清洗、数据选样、数据转换、数据归约等功能。 在对数据预处理技术进行的研究中,着重介绍了缺失值清洗的基本知识和方法,并探讨了当前缺失值清洗技术,客观地评价了它们的优缺点。本文对目前广泛应用的各种数据预处理技术进行了深入的研究,并在此基础上完成了DMLab系统中数据预处理模块的设计和实现,既根据系统需要实现了部分基础的预处理算法,又提出了如何应用聚类算法进行缺失值填充的新方法,并给出了在数据集上的试验结果及结论。 本文的主要创新点在于提出的基于聚类技术的缺失值填充算法。
其他文献
<正>"功血"属月经失调是妇科的常见疾病,它严重地危害着广大妇女的健康,也是妇科较为难治的疾病之一。"功血"的基本病机在于肾,多年来采用西医治疗,用药时间长,停药后易复发,
目的编制基于中医理论基础上的健康生活方式问卷条目池,为进一步筛选条目作准备。方法应用文献分析、开放性调查、专家评定等方法收集条目。结果基于中医理论基础上的健康生
人类在经历了农业经济、工业经济时代后,正在步入知识经济时代。知识正在替代稀缺的物质资源,成为最重要的生产要素和经济增长的主要推动力,而作为知识的载体——人力资本必将成
<正> 病例介绍患者男性,60岁,近2个月进食后左上腹隐痛,油腻饮食后尤甚,并放射至腰背部。前倾位时疼痛减轻。伴有腹胀、呃逆、消瘦,体重由55kg 减至50kg。院外检查除双肺结核
改革开放以来,我国进出口贸易额增长迅速。加入WTO以后,对外贸易又进入了一个快速发展的新阶段。另一方面,随着现代管理水平的提升,越来越多的进出口企业遵循比较优势原则,把有限
随着城市经济的发展,城市交通问题日趋严重,公共交通成为解决城市交通供需矛盾、调整交通结构的主要手段。然而随着城市规模不断的扩大,导致居民出行距离不断增长,出行需求呈
目的观察中药泡洗结合针灸推拿和康复训练对脑梗塞后肩手综合征患者的生活质量影响。方法将122例脑梗塞后肩手综合征的患者随机分为A、B两个队列,A队列(治疗组)62例和B队列(
本文首先对国内外邮政的现状进行分析,并根据白城邮政实行电子商务物流的现状和白城邮政物流发展的总体策略及具体实施,提出和设计了白城邮政物流方案——建立“白城邮政电子