论文部分内容阅读
在信息化时代背景下,每天都会产生大量的数据,需要处理的数据量越来越大,对处理时间的要求却越来越短。面对如此繁杂众多的信息系统以及海量的数据,如何从这些复杂信息系统中提取有用的数据进行分析决策是当下面临的一大难题。在此背景下,本文将研究交通警察信息系统中数据的提取以及建模应用。本文选取交通警察信息系统的数据进行应用研究,首先确定好交通数据的新型存储平台——数据仓库,这将存储散落在原先各个业务系统中的数据。为保证交通警察数据仓库中数据的同步性和准确性,本文结合gpload的特性设计实现了数据导入的ETL工具,将抽取出来的数据,进行转换后再并行加载。还设计了调度中心来对生产环境中的ETL任务集群进行调度,其使用高响应比优先策略搭配蚁群算法来负责处理ETL任务的调度安排,使用quartz负责实际调度执行,从而将数据提取到数据仓库中。然后对交通警察数据仓库中的数据进行分析,例如在卡点采集的车辆经过数据中寻找其中的套牌车辆。先对卡口数据集的结构进行了分析,找出其中跟套牌车分析有关的属性信息,并将业务上的分析方法转化成定量的数学模型。再引入时空矛盾的新约束,设计基于时空矛盾的车牌套牌算法,将相关套牌车牌计算结果采用嫌疑率的标签进行输出。紧接着使用MapReduce框架来对数据仓库Greenplum分布式存储的卡口数据进行并行计算,充分发挥数据仓库的分布式存储和MapReduce框架的并行计算性能,对大批量的卡点车辆数据集实现高吞吐和高效分析。为了实现数据的高效分析和低门槛使用,将之前的数据提取过程和数据应用分析进行可视化。结合套牌车的分析和之前数据仓库的数据提取设计了交通警察分析系统,包含交通数据的管理、套牌车鉴别、套牌车布控等功能,该系统降低了业务分析的门槛,提高了数据分析能力,也证明了本文相关理论的有效性。最后归纳总结了本文主要研究内容及相关成果,以及对后期的研究工作进行了讨论和展望。