论文部分内容阅读
随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。在诸如经济、军事、物流、金融、电信等领域的具体应用中,数据的不确定性普遍存在。如何快速、方便、有效地分析不确定数据库中大量的不确定数据以发现潜在的、有价值的和人们感兴趣的信息变得越来越重要。空间co-location模式挖掘寻找给定空间对象之间的关联关系,是空间数据挖掘的重要研究方面。本文针对数据所具有的不确定性,将空间co-location模式挖掘从传统数据扩展到了不确定性数据。首先,介绍基于不确定性的空间数据挖掘的基本概念、研究方法及研究现状。其次,介绍了co-location模式的相关概念,分析了co-location模式挖掘的实质,介绍了经典的Join-Based算法和CPI-tree-Based算法。第三,针对空间数据位置不确定性,定义了基于期望距离的空间邻近关系,设计了UJoin-based算法,提出了BR与三角不等式剪枝策略,有效地改进了算法效率,通过大量实验验证了剪枝策略的有效性以及研究位置不确定性co-location模式挖掘的实际意义。第四,针对空间数据存在的不确定性,定义了在概率数据上挖掘空间co-location模式的可能世界模型。定义了在可能世界模型下,空间co-location模式频繁度的测度:概率参与率和参与度。设计了U-Order-Clique-Based空间co-location模式挖掘算法,并针对算法的指数级复杂度,讨论了优化策略。实验部分首先在模拟数据上验证了优化策略的效果,然后在真实数据上验证了研究存在不确定性co-location模式挖掘的现实意义。最后是总结部分,在对本文主要内容作简要回顾的同时,还指出了当前co-location模式挖掘不确定性研究的未尽问题,并对未来的研究做出展望。