论文部分内容阅读
在对海量数据进行序列模式挖掘时,由于产生的候选序列数量大并且需要反复遍历数据库,会带来存储受限及时效性问题。为此,基于无共享分布式环境,提出一种动态划分序列模式挖掘算法DPSPM。通过分布数据降低数据库扫描的规模,降低I/O开销,使用分派函数指定选举节点,降低通信开销,设计动态列表存储候选序列,降低内存开销,多个子过程异步运行,提高算法的执行效能。实验结果表明,DPSPM算法在较小支持度情况下对中大型数据库有较好的搜索效率。