论文部分内容阅读
进入21世纪,随着汽车保有量的增加,道路交通事故的频繁发生已日益成为一个严重的社会问题。当然,交通事故的成因是多方面的,在大量实际的道路交通安全事故属性中隐藏着某些潜在的规律,如果我们能够对这些数据进行科学地分析并挖掘出其内在的联系,那么相关部门在制定新的法律法规来改进交通安全现状做出决策时就有依可据了。交通事故也展现出多样性与复杂性,这就意味着,传统意义上的数据分析、数据处理工具、方式和方法已完全不能适应时代的要求。数据挖掘(DataMining)可以定义为:从海量的未知数据中提取或挖掘出知识,从技术层面上来说,关联规则是现阶段数据挖掘的最重要的方法。关联规则反映了事物之间的关联性和相互依存性[1],是指在数据集中支持度(Support)、置信度(Confidence)分别满足给定值(阈值)的规则。Apriori算法是关联规则挖掘的经典算法,该算法中蕴含的一条重要性质:“一个频繁项集的每一非空子集均应是频繁的”。通过专业的知识与技术,关联规则可以用来对数据进行分析,给出规则预测,从而找出它们之间内在的因果关系,而从海量的数据中寻找到数据间的关联关系对于决策分析是非常有价值的。采用数据挖掘手段可以从真实的交通事故案例数据库中搜索到有价值的信息,不断地组合影响交通事故案例诱因可以发现,这些因素之间存在着某种隐藏的规律。影响交通事故发生的因素一般是有联系的,如果通过人工调控,使这些关联因素中其中一些因素削弱或消失,则可以在一定程度上预防和减少交通事故的发生。由于道路交通安全事故诱发因素的复杂性,经典的数据挖掘Apriori算法并不适合对非单一维的规则挖掘,因此需要扩展。本文结合实际问题,对我们所研究的问题进行简化的同时设计了一套改进的Apriori算法,且支持多维度的关联规则挖掘,由于引入多维属性,因此挖掘出来的规则将更具有实用性和建议性。在多维度的数据库中对关联规则的挖掘将每个维当作一个谓词,可以更详细描述出一个事实。在挖掘所需信息时,需要在海量数据库中搜索频繁子集。在多层次多维度数据模型中,搜索频繁子集需要对每一层设定一个大小合适的最小支持度,因此在实际的操作中比较繁琐,因此可以绕个弯子来简化操作。方法是对规则进行分析之前我们先任选一个特定的层次作关联分析并排除其它层次的分析,因此这个问题就简化成了单层的规则分析。例如我们要对事故发生地点进行挖掘,选择县级公路层作为关联对象,其余的维度也这样选择。这样做问题就简化了,也得到了我们对多维度多层次的道路安全交通事故的数据挖掘的目的。本文作者针对道路交通事故这一社会性问题加以研究,对大家比较熟悉的单维单层Apriori算法加以改进;给出了交通事故常用属性的描述;道路交通事故属性的组织建模采取全星型连接数据模型;将大量纷繁芜杂的交通事故数据源组织为可进行挖掘的属性信息,以利于挖掘出它们之间各种复杂关系;我们着重描述了对真实交通事故数据的建模,并对研究对象设计改进的Apriori算法。最后我们在对数据库上的数据进行关联挖掘,导出影响道路交通安全事故因素关系的关联规则。本文对现实交通事故数据进行了合理的建模,并对这些数据进行关联规则挖掘,在理论和实际上都证明了关联规则挖掘在交通事故数据的分析和决策上具有使用价值。