论文部分内容阅读
随着数据采集硬件技术的进步,位置信息获取设备日益普及,产生了海量的地理位置数据和时空数据等。对这些数据的研究是数据挖掘的重要研究内容,其中,时空数据的事件检测是时空数据挖掘的一个重要研究内容。本文研究基于位置信息的事件检测,目的是通过对位置特征信息的统计分析来检测是否发生事件。本文的主要思想是特定时间段内乘坐出租车到达特定位置的人数反映了人类的活动规律,正常情况下是比较平稳的,当某些异常事件发生,以至于引起所在时间段内乘坐出租车到达该区域的人数相比于该区域不同日期相同时间段的人数发生明显变化时,通过检测这些异常来检测事件。基于位置信息的事件检测主要包括三部分内容:位置特征信息提取;原始事件检测;复杂事件合成检测。为了提取出特定位置的特征信息,提出了区域离散化的概念,然后通过区域离散化,把GPS轨迹转变成区域轨迹,最后,从区域轨迹中提取出位置特征信息,为后续原始事件检测和复杂事件合成奠定基础。此外,本文中区域离散化的思想以及对GPS轨迹的处理方法也适用于轨迹数据挖掘的其他研究。讨论了原始事件的检测。首先,对原始事件检测问题进行了分析描述,对比了本文中原始事件检测与其它特定类型事件检测方法的不同之处,分析了彼此的优缺点。其次,提出了共性异常的概念,在共性异常的基础上,给出了原始事件的定义和原始事件的形式化描述。再次,对原始事件检测结果的噪声过滤方法进行了讨论,提出了原始事件噪声过滤方法。然后,讲述了本文中使用混合高斯模型实现聚类的方法。最后,提出了基于聚类的原始事件检测算法,包括算法设计和算法流程图等。讨论了复杂事件的合成检测。首先,从复杂事件与原始事件的关系和复杂事件如何合成检测两个角度,给出了复杂事件合成检测的问题描述,并给出了复杂事件的定义。其次,讨论了复杂事件合成检测中的一个重点——空间区域邻接关系,建立了空间区域邻接关系矩阵。最后,提出了复杂事件合成检测算法,详细讲述了算法的设计。本文首先基于提取出的位置特征信息进行了原始事件检测实验,并对实验结果进行了噪声过滤;然后,在位置特征信息和原始事件检测结果的基础上进行了复杂事件的合成检测实验,并对实验结果进行了分析讨论。通过对实验检测结果的对比验证,表明了本文提出的原始事件检测算法和复杂事件合成检测算法的准确性和可靠性。