论文部分内容阅读
随着大数据时代的到来,数据仓库、数据挖掘技术发展的非常迅速,利用现有系统中流转和沉淀的数据,挖掘出有用的模式以指导决策,已经成为了大数据时代的趋势。随着突发事件和自然灾害的增多,成品粮应急物流越来越被国家和研究者所重视,为了构建科学、高效、可靠的成品粮应急调度决策系统,本文提出了使用数据挖掘技术解决成品粮应急调度中的配送路径优化问题的研究思路。本文研究了数据挖掘技术中的主要算法和评估指标,对各个算法的优缺点进行了分析和总结。通过将数据挖掘技术与成品粮应急调度决策相结合,针对其中难以解决的动态路径优化问题,提出了使用数据挖掘技术中的回归分析技术进行道路阻抗函数的研究。首先,本文研究从实际数据出发,在收集到北京市2012年1月份环路微波检测道路数据的基础上,采用分布式数据处理手段对该历史道路数据进行了清洗和处理,并借此研究了分布式系统hadoop的数据存储和处理原理,为了方便后续模型研究,本文给出了大规模数据集下特征提取的思路,并设计了道路阻抗函数研究中的特征提取步骤并给出了示例。然后,在模型研究方面,本文利用了数据挖掘技术中的分类、回归技术对输入的特征和目标值进行拟合,以进行道路阻抗函数的确定。在该部分的研究中本文分四个阶段由简单到复杂地对道路阻抗函数进行研究:线性模型研究、基于BPR函数模型的研究、分类回归树模型研究,然后创新性地提出概率性分类回归模型并对其进行了深入研究。以上四个类型的模型,在本文中都给出了详细的公式推导、求解方法以及模型优缺点分析。最后,在模型的验证方面,本文为四个模型分别设计了详细的实验步骤,然后通过对北京市2012年1月的实际历史道路数据进行实验,使用量化的指标对各个模型的实验结果进行对比、分析和验证。通过实验可以证明本文提出的概率性分类回归模型在道路阻抗函数的拟合上表现的最好,最具实用价值。