交通事故数据缺失机理和插补策略研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zhypku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将历史事故数据作为研究对象进而探寻事故特征规律等是道路交通事故及通行安全相关研究的重要途径,众多交通安全相关理论和方法的提出大都以事故历史数据的事后研究为切入点。但实际上,由于事故本身原因(逃逸事故等)、数据收集技术手段(调查人员疏忽、数据采集设备或方法落后等原因)和后期处理(录入遗漏等原因)等方面的原因,常导致事故数据库中缺失数据的大量存在,给事故数据的挖掘、分析等相关研究带来了极大的不便和干扰,是道路交通事故相关研究中无法规避的缺陷。任意方式的研究样本数据缺失都会给其结论分析带来复杂性,甚至是结果失真,进而带来不能很好的展示研究总体相关特征等一系列问题。研究样本的数据完整性和可靠性是保障数据挖掘工作结论正确性的核心所在,传统的直接删除等处理缺失数据方法存在严重的局限性,而数据挖掘及处理技术的新发展使得运用更为先进的数学方法成为可能。即为了能更加充分的利用样本数据,使得研究结论更为真实的反应实际情况,采取“插补”的方法对存在缺失数据的研究样本进行填充,得到数据结构齐整的研究样本后再进行原无法进行的数据挖掘分析。缺失数据插补的终极目标并非追求缺失值精准还原,而是估测其所存在的分布规律和特征。本文主要研究成果如下:1.针对完整数据集的逃逸事故样本,分别采用logistic模型、随机参数probit模型和线性混合效应模型对影响逃逸行为发生的各特征变量因素进行鉴别,得出在有涉事人员伤亡的双车事故中,肇事驾驶人的性别与年龄、肇事车辆的类型和用途、肇事驾驶人是否受伤、未肇事驾驶人年龄、未肇事车辆类型、未肇事驾驶人是否受伤、事故发生是否夜晚、路面情况、道路限速、道路等级、事故是否发生在车道范围内等特征因素的变化对逃逸行为的发生有显著影响;且随机参数probit模型和线性混合效应模型的拟合效果接近,均优于logistic模型。2.采用改进Apriori关联规则算法对逃逸事故特征变量的缺失规律进行挖掘,发现缺失数据集中在肇事驾驶人、肇事车辆、未肇事驾驶人及未肇事车辆等方面;逃逸事故各特征变量的统计数据缺失较非逃逸事故严重,其中肇事逃逸驾驶人酒驾信息为缺失最严重变量,且其信息缺失与肇事逃逸驾驶人年龄、未肇事车辆类型的数据缺失关联规则明显;并根据各类事故统计特征变量的关注程度,重点针对逃逸驾驶人与未肇事驾驶人是否受伤、逃逸驾驶人性别、逃逸车辆类型进行关联规则挖掘。3.考虑到数据样本的异质性,区别于传统的单重回归插补模型,以模型拟合效果最优为筛选准则,建立优化logistic模型和线性混合效应模型的单重回归插补方法流程;同时依据Apriori关联规则挖掘成果,建立基于Apriori关联规则的单重插补方法流程,并以插补结果的均方根误差、平均绝对误差和契合度作为判别准则,得出基于Apriori关联规则的单重插补方法具有相对较高的插补效率。4.细化数据缺失机制判断方法,建立一种基于随机森林方法模型的FCS(Fully Conditional Specification)多重插补策略流程,并以此为前提,确定不同类型及缺失规模特征变量的多重插补次数;在此基础上,与不含缺失数据的全样本数据分析结论进行对比,得出针对缺失数据样本的,多重插补模式下逃逸事故发生影响因素规律特征,并分析、探讨其分析结论的异同。采取“插补”的方法处理道路交通事故数据库中的缺失数据,以形成“完备”的研究数据样本,进而进行相应的数据挖掘工作以探寻事故发生的内在机理与倾向性是道路交通事故相关研究的新途径,其理论及方法的应用将会为完善道路交通事故数据体系,预防和减少道路交通事故的发生及降低事故伤害程度等提供指导与借鉴。
其他文献
生物指纹图像在人类的整个生命周期中具有独特性和持久性,是最具有效性和可靠性的生物特征识别手段之一。但是,指纹图像如果没有得到很好的安全保护,可能会面临安全缺陷,例如
在膨胀土的基坑支护结构设计中,膨胀力是重要的设计参数。膨胀力的产生是由含有亲水性矿物的膨胀土吸水后产生体积膨胀量造成的。目前,膨胀力和膨胀量参数的获取建立在大量试
多天线定位在变形监测、无人机测量等领域应用广泛,但现有多天线定位算法多针对姿态测量,关于移动平台位置确定的研究较少。多天线相对定位时除了移动平台上设置若干接收天线
我国山多地广,为了缩短两地交通时间,除了提高列车车速,还可以缩短运营距离,而修建隧道是一种缩短运营距离、提高车速的有效手段。近年来,隧道建设地形越来越复杂,隧道结构要
改革开放以来,我国城乡交通网络建设取得了巨大的进步,但是交通网络的建设与发展具有一定的历史性,因历史条件的限制或者历史规划预见性的缺乏,使得目前的交通网络中存在着诸
组合结构的抗震性能在很大程度上依赖于柱的强度和延性。方形钢-混凝土组合柱由于具有较高的强度和良好的延性而被广泛用作组合结构的竖向承力构件。当钢-混凝土组合柱遭受到
在中国经济发展新常态和进入城镇化中后期双重背景下,特大城市作为中国城镇人口的重要流向地,其常住人口城镇化比重普遍达70%,率先进入存量更新时代。作为地理地域优越地和经
水库运营、雨季洪峰、滑坡涌浪、溃坝等均会导致水库水位的涨落,岸坡在库水位涨落的影响下,产生动静水压力,改变岸坡应力水平,劣化岸坡岩体强度,引发失稳。但当下岸坡稳定性
我国幅员辽阔、能源分布不均衡的特点,使得近年来高压直流输电技术得到了广泛的应用,其中包括越来越多的直流异步联网工程的投运。直流异步联网使得大电网被逐渐分割、减小为
钩缓装置及其承压稳定性,对重载机车的运行安全性有至关重要的影响。内燃、电力机车车钩作为我国机车广泛采用的车钩型号,长期以来,其性能总体表现良好,但伴随着组合式重载列