论文部分内容阅读
在基于位置服务数据的数据挖掘研究中,数据处理能力已经成为了分析的瓶颈。虽然基于MapReduce计算模型人们可以通过多机并行相对快速地完成计算,但是由于MR模型对数据结构及任务功能有着严格的规定,在获取大数据后,还需要进行大量的数据清洗及格式处理工作。在完成数据清洗后,数据处理工作中也存在较多的重复编码。这些工作对数据分析的效率有着极大的负面影响。为此本文设计了面向位置服务数据的数据处理平台,在平台的设计中完成了如下三项主要工作。1.提出了面向位置服务数据的数据清洗及数据处理领域模型。本文对数据建模方法进行了讨论,总结了数据建模的基本思路及面向特定需求的建模方法。基于常用的导航数据给出了其在本数据平台内的数据模型及其数据清洗策略。2.设计了面向位置服务数据的数据处理平台体系结构。本文通过对国内外现有数据处理技术的分析,结合面向交通流的时空查询的典型需求,设计了一个可定制模板的数据清洗及处理平台。通过数据模板、计算模板及核心函数,快速完成对原始数据清洗及相关的数据处理。3.完成了对本平台的系统设计。使用了软件体系结构描述语言对数据模型及数据平台的核心构件进行了定义,使用构件技术及Z语言对平台进行了描述并描述了构件内部的处理逻辑。通过分析现有数据处理平台,结合交通流研究的数据查询需求,本文设计了一个面向位置服务数据的数据清洗及数据处理的开放数据处理平台。能够为实验室的位置服务数据进行快速的数据清洗,同时提供了对时空数据的快速查询。面向构件的设计也为今后的功能扩展提供了充分的技术支持。