论文部分内容阅读
数据挖掘技术能发现数据之间的潜在关系,从而提供决策支持,因此是数据库研究中极具应用前景的领域。关联规则是数据挖掘的重要工具之一,序列模式挖掘是对关联规则的进一步推广。在传统领域中,研究者对序列模式挖掘做了大量的研究,迄今为止已提出了许多高效的序列模式挖掘算法。
而伴随着网络技术的迅速发展,人们通过无线通信、位置感知及移动计算等技术接入信息网获取所需信息,因此,能够收集大量的移动对象的位置数据。如果对这些位置数据进行挖掘,就可以有效地发现移动对象移动的规律性。这些规律在智能交通管理和基于位置的服务等领域中都有广泛的应用。
但是,在移动计算环境中移动对象序列模式的挖掘与传统的序列模式挖掘不同,需要考虑序列项之间的空间约束关系,且移动序列与传统序列中的项具有的不同特点也应考虑。因此在传统的PrefixSpan算法和基于PrefixSpan算法改进的PVS算法中都加入了空间结构判断,分别称为Revised PrefixSpan和Revised PVS算法。
首先,本文提出的SMPM算法针对Revised PrefixSpan算法在挖掘数据集时需要产生大量重复投影和Revised PVS算法产生物理投影的不足进行改进。在SMPM算法中采用了前缀树压缩存储序列模式,挖掘过程中利用前缀树中每个节点记录的支持度和后缀位置的信息来判断前缀是否有相同的投影数据库,如果有则直接将其指针指向前缀树中的同一个节点,从而避免了原始算法中产生重复投影和产生物理投影的问题。此算法运行的时间效率与避免重复挖掘的次数有关,因此更适合挖掘相似度较高的序列。其次,本文又提出了SSMP算法,其针对RevisedPrefixSpan算法在挖掘空间数据时需要每次在k-序列扩展为k+1-序列时进行相邻判断的不足进行改进。SSMP算法将原始移动序列根据网络结构对不相邻的项进行划分,从而避免了挖掘时进行的多次网络结构判断。最后,本文通过对比道路网与GSM网络结构的相似性,研究了SMPM算法及SSMP算法应用到道路网的移动对象序列模式挖掘模型。
本文采用斯坦福大学开发的无线网络仿真程序产生的测试数据,对SMPM和SSMP算法的正确性和一些影响因素进行测试,并分别与Revised PrefixSpan算法和Revised PVS算法进行了比较。实验结果表明SMPM算法和SSMP算法的时间效率有较大的提高,能够更好地满足具有空间约束的数据挖掘的要求。