论文部分内容阅读
近年来,随着轨道交通的长足发展,大规模运营数据沉积在轨道交通AFC中央数据库中。在对轨道交通数据进行科学处理时,往往会因为其具有规模大、特征复杂等特点,使得理解、分析这些数据,并从中获取知识变得十分困难。对于这些数据,轨道交通决策者已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对轨道交通决策或日常运营工作提供更有效的决策支持。由此数据挖掘和联机分析处理势在必行。本文以分类和聚类算法为主要研究对象,描述了算法的基本理论及其应用。在传统聚类、分类算法的基础上,主要研究适合轨道交通运营数据的分类和聚类的理论及其发展过程;以及使用决策树、时间序列、划分聚类等技术解决轨道交通AFC运营数据中的大规模知识发现问题。根据当前较新的期望最大化算法和C4.5算法,结合轨道交通自动售检票运营数据中的时间序列,对轨道交通AFC中央数据库沉淀的历史数据进行数据描述与挖掘分类,从中发现日常运营过程中隐含的固有模式。通过相关性分析,提出了基于序列分析的期望最大化聚类算法和决策树分类算法。结合轨道交通运营数据的序列性特点,这两个算法不仅能够解决传统挖掘算法具有的局部收敛与效率低下等诸多问题,更加适合于高维、大规模轨道交通运营数据的分析。因此本文研究成果对大规模的轨道交通运营数据进行的分析一定会产生积极的促进作用。同时,本文在分析轨道交通售检票系统运营数据库历史沉积数据的基础上,运用数据仓库等相关技术,设计和实现了基于多维立方体、数据挖掘及联机分析处理的决策支持系统。从而为提供准确、高效的轨道交通决策支持做出有意义的尝试。最后,本文结合商业智能开发工具,使用数据抽取、数据转换等预处理过程,构建数据仓库和多维立方体、建立数据挖掘模型,完成数据挖掘结果的报表展示。验证了系统构架的可行性、可操作性、扩展性和灵活性,以及算法的正确性、实时性和自适应性。结论表明,基于数据仓库、联机分析处理和数据挖掘技术设计和实现的轨道交通AFC决策支持系统具有很好的现实意义和实用价值。