论文部分内容阅读
时空离群点挖掘是空间数据挖掘领域的一个重要研究分支,是为了找出与时空邻居有着明显差异的时空离群对象集,该集合包含的对象通常很少,易被认为是某种误差造成的,从而被我们忽视掉,但是这些离群点可能蕴含着有价值的时空知识。在对现有的时空离群点挖掘进行研究时,我们发现挖掘对象通常是海量时空数据,其计算量和I/O消耗巨大,传统串行算法无法满足其计算效率的需求,研究出适合的并行算法势在必行。 云计算能对网络中廉价的易于扩展的软硬件资源进行充分整合以实现分布式并行计算,从而大大缩短任务的计算时间和节省平台构建的成本。列存储具有复杂查询效率高,磁盘访问低,存储空间少等优点。在列存储数据库中,对于列的访问只是对列所在的存储单元进行操作,能有效地降低查询操作的I/O消耗。 本文结合云计算和列存储技术在海量数据处理和存储上的优势进行时空离群点挖掘算法的并行化研究,主要做了以下工作: 1)总结对比几种典型的时序离群点挖掘思想和各自的优缺点,并且分析了几种具有代表性的空间离群点挖掘算法的实现原理和过程并归纳对比了其优缺点,然后结合当前时空离群点挖掘研究前沿,通过综合考虑时空对象的时空属性和非时空属性对时空对象离群影响的差异,提出了一种基于时空属性加权的时空离群点挖掘算法。 2)了解云计算的特点和关键技术,重点研究了Hadoop云计算平台下MapReduce编程模型和运行机制。然后在对上述提出的挖掘算法进行了串行算法思想和流程分析的基础上,进行了并行化分析和设计,并在云计算平台中编程实现。 3)熟悉列存储的定义及几种关键技术,重点对HBase的数据模型、文件格式以及存储方式进行研究,然后在分析了现有空间数据存储方式和SFASQL规范基础上,在HBase中进行空间数据存储设计,实现空间数据的分布式列存储和管理,并对空间数据进行了Hilbert曲线划分,实现了时空对象的聚类存储,提高了数据挖掘的效率。 4)搭建了Hadoop云计算平台和配置了HBase数据库运行环境,使用了全国三十一个省区2001年-2011年的农业受灾数据进行了实验,对挖掘结果进行了分析和评价,并且通过对比并行环境和单机环境下挖掘的效率,验证了并行算法性能的优越性,同时通过不同集群规模实验验证了集群性能良好的可扩展性。