基于机器学习的数据预处理框架研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:YSCX0825
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化建设的加快,社会中的各个行业有大量应用层面的数据,数据信息量的增大使得数据挖掘的难度也随之增大,如何在数据中提取到有价值的知识和信息并应用到实际中去,已经成为整个数据挖掘领域的研究热点之一。为确保数据挖掘更好的实现,首先要确保数据本身的质量,高质量的数据可保证数据挖掘的价值最大化。数据预处理精准地完成,可为我们在数据挖掘工作展开上打下良好的基础。本课题的研究目标是以一卡通消费流水数据为样本,从实际应用的方向考虑。提出一种基于机器学习的K-Means聚类算法与数据预处理相结合的框架,通过数据预处理框架处理过的数据能够达到机器学习算法的数据要求,再通过聚类算法使用对数据进行进一步整合与优化,使之得到可实际分析及应用的数据,从而论证本文所提出的一卡通数据预处理模型的实际意义与应用价值。本文的主要工作如下:1)筛选出与本文样本数据特征相结合的数据预处理方法;2)提出并探讨传统的机器学习聚类算法,通过对校园一卡通消费数据的特征分析,筛选出最适合作为本文所提出的数据预处理框架的聚类算法;3)设计出基于机器学习的数据预处理框架,此框架主要包含四个模块:数据脱敏处理、数据清洗、数据规约以及数据集成;4)结合本课题的实验数据样本,首先选取校园一卡通数据并对其进行系统的描述性分析。其次运用机器学习的相关技术与之结合,最后使用聚类算法对数据进行处理,实现对数据预框架处理的验证;5)通过对一卡通数据的聚类得到五组聚类人群并展示了每个聚类人群的性格特点和行为习惯。最终发现通过对一卡通数据的聚类分析,可以明显得出学生之间的类别差异,这些差异化的结果能给校方提供针对性的整改意见及管理措施,达到更好的管理效果。同理该框架也可以应用到其它相似的一卡通消费场景,使其数据能够拥有实际的使用价值。
其他文献
学位
学位
学位
学位
学位
传统交流配电网在新能源时代难以满足企业使用清洁能源的要求,更多的新建企业开始考虑使用直流配电网输电。相对于传统交流配电网,直流配电网可控性好,传输的电能质量高,电能输送时损耗小,使直流配网成为未来企业配电网发展的新方向。目前,如何对企业的短期负荷情况进行预测,实现有计划地从母线馈电用以保障企业配电网稳定运行,保障企业生产稳定运行是企业可以大规模使用直流配电网的关键技术,因此企业直流配电网短期负荷预
长期以来,激光散斑及其统计特性的研究一直是物理光学领域的一个重要课题,并因其在生物医学、国防航天、遥感探测以及光学测量等领域的广泛应用而受到关注,但在过去对于激光散斑现象的研究中,这些随机光场大多被视为没有偏振信息的标量光场,并且主要关注统计特性以及散斑图案的强度分布的应用,而对于矢量光场在随机介质中散射产生的随机偏振散斑的研究,开拓了一个为以研究光场的统计特性为主要方向的领域,但是在关于偏振散斑
学位
学位
随着铝合金材料已经被广泛应用于国内的建筑工程中,国产结构用铝合金构件的残余应力分布研究对于构件承载能力的设计是有重大意义的。为分析铝合金焊接成型构件在成型过程中,其温度荷载及热传导对残余应力分布的影响,在热传导基本理论的前提下针对20个铝合金焊接成型构件的焊接加工过程建立了有限元模型,模型采用温度-位移耦合的方法,分析了铝合金焊接成型箱型截面在焊接过程中的温度场和应力场特点。并且本文采用盲孔法,选