动车组大数据清洗关键技术研究与实现

被引量 : 18次 | 上传用户:happyyoung
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国高速铁路动车组的大规模投入使用,动车组各种监测数据呈现爆炸式增长。同时,动车组闸片、车轮、转向架等主要部件产生的工作状态数据是动车组故障诊断、寿命预测、知识推理等工作的基础,对整个铁路的信息化发展起着举足轻重的作用。但是,数据质量问题并没有得到应有的重视,观察监测到的动车组数据发现,其中存在着数据不完整、信息冗余、含有非法数据等质量问题,使得基于动车组数据分析的工作产生错误的分析结果,影响了信息服务的质量,因此,对动车组数据进行清洗具有一定的理论和现实意义。本文主要研究动车组数据中含有非法数据,即离群点的情况。由于传统的清洗算法在处理大数据时性能较差,因此本文引入了Hadoop分布式计算框架,该框架的Map/Reduce编程模型能够与本文的算法完美结合。针对动车组数据量大、维数较多和数据类型多样等特点,提出了基于网格的LOF离群点检测算法。由于数据集中的大部分数据不是离群点,因此对整个数据集进行离群点检测是没有必要的,而基于网格的LOF离群点检测算法能够先删除一部分不包含离群点的数据,即进行网格剪枝,再对剩余的数据集进行离群点检测,大大减小了算法的时间复杂度。本文针对基于网格的LOF离群点检测算法提出了如下改进:首先,针对网格剪枝中网格密度定义的不严谨性,提出了聚类半径的概念,通过这个改进能够避免漏检离群点,大大提高检测精度;其次,针对LOF算法不能与MapReduce编程模型很好结合的情况,提出了网格编号的概念,通过网格编号,把整个数据集划分为若干个被标记的小数据集,使基于MapReduce并行化机制的LOF算法能快速进行数据处理。通过实验证明,改进的基于网格的LOF离群点检测算法在离群点的检测精度与时间效率上都有所改善。实验同时验证了Hadoop集群对大数据集优越的处理能力。总之,本文的研究成果对动车组大数据清洗的研究提供了一定的参考。
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
当前,我国社会已经进入了全面依法治国的新时期,法治观念日益深入人心,运用法治思维已成为创新思想政治教育工作的崭新切入点。实践表明,在思想政治教育工作中介入法治思维,
根据心理学理论原理,在调查高校学生室外学习活动类型的基础上,对丽水学院的5个可供学习的室外环境调查分析,总结学生对学习环境的心理需求,归纳高校室外学习环境的设计方法。
《国家中长期教育改革与发展纲要(2010-2020)》中就高等教育增强社会服务能力建设工作做出明确规定:高校要牢固树立主动为社会服务的意识,全方位开展服务。高等学校的四大职能
《香港截取通讯及监察条例》的制定与实施是香港秘密侦查法治化进程中的里程碑事件。条例的出台直接渊源于香港法院秉承的司法能动主义。该条例对大陆秘密侦查法治化具有借鉴
《心灵捕手》是20世纪90年代由魅罗麦克斯公司出品的一部励志影片,这部影片的奇特之处恰恰在于,影片的剧本是由片中的男主角自主创作的,是一部由情节构建人物、由人物推动情
随着“微时代”的到来,一系列以“微”为标志的事物运用而生,在极大地改变人们思想观念和生活方式的同时,也对改进当前大学生思想政治教育工作提出了迫切的需求。大学生思想
随着全球化的进程进一步的加快和深入,中国制造业已经逐步参与到全球供应链和价值链中,依靠廉价劳动力、土地优势以及广阔的内需等优势吸引众多外国制造业企业在国内投资建厂
我国存在众多小微企业,小微企业在促进经济发展、增加就业、推动创新、保持市场竞争活力、保障价格机制运行等方面发挥着重要的作用,为我国经济社会发展做出了重要的贡献,但
<正> 为了探讨在新时期如何有效地对中学生进行理想教育,本刊编辑部不久前邀请了北京市十四所不同类型中学的校长、教导主任、班主任、政治课等科任教师举行理想教育座谈会。