论文部分内容阅读
随着移动互联网和全球定位系统的快速发展和广泛应用,使得时空数据呈现爆炸式的增长。海量的包括时空对象的空间、时间及其专项属性的时空数据可以为重大事件的发生提供判断依据。时空数据的分析已成为当前研究的热点,其中异常时空数据的挖掘能直接分析出异常情况的产生,研究异常数据的挖掘具有实际的意义。基于时空扫描统计量的聚类分析是异常数据挖掘的主要方法之一,很多学者已经进行研究并取得一些成果,但是仍存在以下缺陷:第一,时空扫描窗口参数阈值设置将影响扫描结果,如何设置合理的阈值是需要讨论的问题;第二,传统的时空扫描统计量方法未考虑时空间的交互作用,扫描结果导致探测灵敏度不高,故本文针对这两个问题做了以下的研究:(1)在传统的时空扫描方式中,未考虑时空对象空间属性的变化,在整个空间扫描过程当中空间扫描步长及扫描最大半径阈值均为定值,影响了扫描分析的准确度。本文提出基于非均匀步长的时空扫描,将窗位和其他采集点之间的最大距离Lmax的1/2作为该窗位的最大空间扫描半径,空间扫描采用递进式扫描的方法,通过对比实验证明了该方法下的探测分析更合理,结果更准确。(2)本文提出CSpace-Time Scan算法。该算法首先在时间维度上,利用指数加权平均的方法,将当前时间单位前期的影响叠加到当前以计算当前时间单位的期望发生量;然后在空间维度上基于反距离加权法计算时空对象的邻域对其的影响,最后计算出时空对象在当前时间单位当前空间位置的期望发生量。(3)本文基于python语言,完成算法实现,利用公开的美国纽约市发烧患者的个人就诊信息数据集和云南省边境县区的发热数据集基于异常数据定义进行对比验证分析,验证了异常点判别的正确性和算法的有效性。本论文分别从扫描方式和时空相互作用的角度出发对传统的时空扫描统计量方法进行改进与研究。结果表明,改进后的时空扫描方法具有较高的探测能力,相关分析结果能为实际应用提供指导意义。