论文部分内容阅读
随着大数据时代的到来,数据量急剧增长。如何从这些海量的数据集中挖掘出有价值的信息,已经成为时空数据挖掘的一个热点问题,时空离群点检测作为时空数据挖掘的重要分支,其目的是从数据集中挖掘出时空方面的离群点。时空离群点是指与其时空邻居的非空间属性值具有明显差异的对象。识别时空离群点有助于发现一些意想不到的、有趣的和有用的知识。时空离群点检测在很多领域都有重要的应用,例如:金融领域的欺诈检测、故障诊断、网络入侵检测、交通和气象领域等等。本文提出一种时空离群点检测算法,该算法考虑空间自相关性和时空对象之间的交互关系,距离近的事物比距离远的事物之间的相关性更加紧密,所以该算法引入了空间距离权重。在时间离群点检测部分采用时间序列分析的方法来进行检测离群点。但是,在该时空离群点检测算法中,有关空间距离权重的计算量很大,无法有效处理大数据集,所以使用大数据处理平台Hadoop来提高算法的性能,因此提出了一种基于大数据平台Hadoop的时空离群点检测算法,该算法主要利用Hadoop的分布式文件系统HDFS存储海量数据集,以及并行计算框架MapReduce来实现并行计算,并对算法进行正确性、复杂性和完整性分析。在实验部分,利用宁波海潮数据集和合成数据集来验证算法的有效性和可扩展性。实验数据表明,基于Hadoop的离群点检测算法的确可以很大程度上提高时空离群点检测的效率。此外,本文的研究成果被整合到一个功能比较集中的空间数据挖掘平台,为对数据挖掘技术感兴趣的学者提供技术和经验分享的平台。