论文部分内容阅读
信息时代,感知、测量、记录、传播及存储等认识世界的方法得到跨越式发展。数据量呈现井喷式增长模式,但用来改造世界的从数据中获取的信息量相对贫乏。ITS技术的发展,利用装有GPS和通信设备的浮动车采集交通信息,可获取大量交通运行状态信息。人、车、路三要素相互制约,组成了城市道路交通信息。城市道路交通系统的时变性、复杂性和非线性特征,各种内外因导致系统具有高度的不确定性。如何让这些交通信息“发声”,达到对数据信息的“感传知应”,显得非常重要。本文研究了关联规则挖掘的基本问题,总结了经典的挖掘算法。结合城市交通信息特征,针对Apriori算法性能的缺陷,本文作了相关改进研究。改变数据库映射方式,避免了原有算法多次扫描数据库的开销;在得到每个候选项集的支持数以判断是否频繁项集时,借助Apriori算法的先验知识,由已有的频繁项集中的元素生成的候选项集确定不是频繁项集,那么该元素后续就不需连接,这样优化了连接步骤;在扫描数据库时,Apriori算法对候选项集和事务模式匹配,时间开销大,为此本文引进集合交集运算,简明易懂。通过这些改进策略,综合给出了改进算法。理论上说明了改进算法较原有算法的优越性以及在城市道路交通信息挖掘领域更好的适应性。针对诸多研究者在对挖掘算法进行分析和研究后,选择蘑菇集作为测试数据集,显得单一;且截至目前对道路交通拥堵进行关联规则挖掘缺乏有效研究。鉴于城市道路交通流的GPS数据经处理后,得到的数据集契合关联规则挖掘算法对数据的严格要求。因此,本文把关联规则算法应用到城市道路交通信息挖掘中去。借助浮动车监控中心的数据,经过数据选择和预处理,对区域内和区域间早、晚高峰时段的数据分别进行挖掘,生成了满足约束条件的频繁项集,找出了其中存在的有意义的强关联规则。考虑参数对结果的影响,作了进一步的分析,同时也验证了优化算法在效率上有所提升。分析所得到的关联规则,给道路交通参与者提供路径决策,用以指导科学出行,实现相对准确的交通预测和控制。最后,对本文所作的工作进行了总结,并指出了进一步研究的方向。