论文部分内容阅读
随着社会信息化建设的加快,社会中的各个行业有大量应用层面的数据,数据信息量的增大使得数据挖掘的难度也随之增大,如何在数据中提取到有价值的知识和信息并应用到实际中去,已经成为整个数据挖掘领域的研究热点之一。为确保数据挖掘更好的实现,首先要确保数据本身的质量,高质量的数据可保证数据挖掘的价值最大化。数据预处理精准地完成,可为我们在数据挖掘工作展开上打下良好的基础。本课题的研究目标是以一卡通消费流水数据为样本,从实际应用的方向考虑。提出一种基于机器学习的K-Means聚类算法与数据预处理相结合的框架,通过数据预处理框架处理过的数据能够达到机器学习算法的数据要求,再通过聚类算法使用对数据进行进一步整合与优化,使之得到可实际分析及应用的数据,从而论证本文所提出的一卡通数据预处理模型的实际意义与应用价值。本文的主要工作如下:1)筛选出与本文样本数据特征相结合的数据预处理方法;2)提出并探讨传统的机器学习聚类算法,通过对校园一卡通消费数据的特征分析,筛选出最适合作为本文所提出的数据预处理框架的聚类算法;3)设计出基于机器学习的数据预处理框架,此框架主要包含四个模块:数据脱敏处理、数据清洗、数据规约以及数据集成;4)结合本课题的实验数据样本,首先选取校园一卡通数据并对其进行系统的描述性分析。其次运用机器学习的相关技术与之结合,最后使用聚类算法对数据进行处理,实现对数据预框架处理的验证;5)通过对一卡通数据的聚类得到五组聚类人群并展示了每个聚类人群的性格特点和行为习惯。最终发现通过对一卡通数据的聚类分析,可以明显得出学生之间的类别差异,这些差异化的结果能给校方提供针对性的整改意见及管理措施,达到更好的管理效果。同理该框架也可以应用到其它相似的一卡通消费场景,使其数据能够拥有实际的使用价值。