论文部分内容阅读
相对于数据采集技术的飞速发展,数据挖掘技术的进展相对缓慢,这种情况在时空孤立点检测方面显得尤为突出,也就出现了“空间数据爆炸而知识贫乏”的现象,急需开发空间数据挖掘技术以发现隐藏在海量空间数据背后的知识。时空孤立点检测作为空间数据挖掘中的一个重要研究分支,是为了找到与时空邻居对象有显著差别的时空对象,它们的数量很少或几乎没有,非常容易被当作数据噪声而被忽略。然而识别时空孤立点能够发现一些意想不到的、有意义的时空模式。论文以空间数据挖掘理论为基础,对空间孤立点检测及时空孤立点检测等问题进行了深入的研究,将信息熵理论、LLE降维算法引入到空间孤立点及时空孤立点检测研究中,弥补了现有空间孤立点检测及时空孤立点检测算法的不足。提出了一种基于图的空间权重孤立点检测算法。多数空间孤立点检测算法源于传统聚类方法或孤立点检测方法,使用空间对象的空间属性确定空间邻居对象,使用空间对象的非空间属性评价空间对象间的差异,从而发现空间孤立点。这种做法忽略了空间对象的空间属性与非空间属性间的内在联系,没有充分挖掘空间属性对空间对象间差异计算的贡献。本文提出了一种基于图的空间权重孤立点检测算法。通过引进信息熵理论计算空间属性重要因子,为空间邻居分配权重系数的方法,将空间属性和非空间属性结合起来对空间对象间的差异进行评价,并使用基于图的方法检测空间孤立点。该算法充分考虑了空间属性在评价空间对象间差异过程中的作用,解决了在空间孤立点检测过程中将空间属性和非空间属性割裂使用的问题。提出了一种基于改进型LLE的时空孤立点检测算法。时空孤立点检测作为一个较新的研究课题,面临时空邻居界定、算法效率低、传统孤立点检测方法不适用等问题。针对上述问题,本文提出了一种基于改进型LLE的时空孤立点检测算法。首先使用改进的LLE算法将高维时空数据映射为低维数据,其次应用时空异常系数的方法检测时空孤立点。该算法充分考虑了时空对象各种属性的作用,能够有效的将高维数据映射为低维数据,并保持数据的局部拓扑结构不变,从而解决了从高维时空数据集中发现孤立点的难题。设计开发了时空孤立点检测原型系统。针对时空孤立点检测研究和应用的需求,遵循软件工程规范设计开发了时空孤立点检测原型系统,该系统具有较为先进的体系架构、较强的可扩展性和实用性,基本实现了对空间孤立点和时空孤立点的检测分析,并使用真实数据集进行了测试。