论文部分内容阅读
将历史事故数据作为研究对象进而探寻事故特征规律等是道路交通事故及通行安全相关研究的重要途径,众多交通安全相关理论和方法的提出大都以事故历史数据的事后研究为切入点。但实际上,由于事故本身原因(逃逸事故等)、数据收集技术手段(调查人员疏忽、数据采集设备或方法落后等原因)和后期处理(录入遗漏等原因)等方面的原因,常导致事故数据库中缺失数据的大量存在,给事故数据的挖掘、分析等相关研究带来了极大的不便和干扰,是道路交通事故相关研究中无法规避的缺陷。任意方式的研究样本数据缺失都会给其结论分析带来复杂性,甚至是结果失真,进而带来不能很好的展示研究总体相关特征等一系列问题。研究样本的数据完整性和可靠性是保障数据挖掘工作结论正确性的核心所在,传统的直接删除等处理缺失数据方法存在严重的局限性,而数据挖掘及处理技术的新发展使得运用更为先进的数学方法成为可能。即为了能更加充分的利用样本数据,使得研究结论更为真实的反应实际情况,采取“插补”的方法对存在缺失数据的研究样本进行填充,得到数据结构齐整的研究样本后再进行原无法进行的数据挖掘分析。缺失数据插补的终极目标并非追求缺失值精准还原,而是估测其所存在的分布规律和特征。本文主要研究成果如下:1.针对完整数据集的逃逸事故样本,分别采用logistic模型、随机参数probit模型和线性混合效应模型对影响逃逸行为发生的各特征变量因素进行鉴别,得出在有涉事人员伤亡的双车事故中,肇事驾驶人的性别与年龄、肇事车辆的类型和用途、肇事驾驶人是否受伤、未肇事驾驶人年龄、未肇事车辆类型、未肇事驾驶人是否受伤、事故发生是否夜晚、路面情况、道路限速、道路等级、事故是否发生在车道范围内等特征因素的变化对逃逸行为的发生有显著影响;且随机参数probit模型和线性混合效应模型的拟合效果接近,均优于logistic模型。2.采用改进Apriori关联规则算法对逃逸事故特征变量的缺失规律进行挖掘,发现缺失数据集中在肇事驾驶人、肇事车辆、未肇事驾驶人及未肇事车辆等方面;逃逸事故各特征变量的统计数据缺失较非逃逸事故严重,其中肇事逃逸驾驶人酒驾信息为缺失最严重变量,且其信息缺失与肇事逃逸驾驶人年龄、未肇事车辆类型的数据缺失关联规则明显;并根据各类事故统计特征变量的关注程度,重点针对逃逸驾驶人与未肇事驾驶人是否受伤、逃逸驾驶人性别、逃逸车辆类型进行关联规则挖掘。3.考虑到数据样本的异质性,区别于传统的单重回归插补模型,以模型拟合效果最优为筛选准则,建立优化logistic模型和线性混合效应模型的单重回归插补方法流程;同时依据Apriori关联规则挖掘成果,建立基于Apriori关联规则的单重插补方法流程,并以插补结果的均方根误差、平均绝对误差和契合度作为判别准则,得出基于Apriori关联规则的单重插补方法具有相对较高的插补效率。4.细化数据缺失机制判断方法,建立一种基于随机森林方法模型的FCS(Fully Conditional Specification)多重插补策略流程,并以此为前提,确定不同类型及缺失规模特征变量的多重插补次数;在此基础上,与不含缺失数据的全样本数据分析结论进行对比,得出针对缺失数据样本的,多重插补模式下逃逸事故发生影响因素规律特征,并分析、探讨其分析结论的异同。采取“插补”的方法处理道路交通事故数据库中的缺失数据,以形成“完备”的研究数据样本,进而进行相应的数据挖掘工作以探寻事故发生的内在机理与倾向性是道路交通事故相关研究的新途径,其理论及方法的应用将会为完善道路交通事故数据体系,预防和减少道路交通事故的发生及降低事故伤害程度等提供指导与借鉴。