论文部分内容阅读
随着信息技术的发展,人们收集的数据量呈指数级增长。如何从这些数据中发现有价值的信息、满足不同行业的需求成为一个迫切的问题。作为近年来的研究热点,高效用序列模式挖掘同时考虑了内部的量化值和外部的影响因子,揭示了数据库中的高效用知识,在商务决策和企业管理中具有广泛应用。目前相关研究主要考虑如何改进算法的效率。但实际应用中,数据形态和约束条件各不相同,现有的许多算法无法有效地挖掘需要的信息。因此,本文主要基于算法效率的提升、不同约束条件和不同数据形态三个层面展开研究。本文的主要研究内容和贡献包括:为了提升高效用序列模式挖掘算法的效率,本文提出了HUSP-Miner算法。该算法采用本文提出的紧凑的数据结构,即效用链表代替原有的数据库。效用链表加快了序列模式的生成过程和效用值、效用上界的计算过程,因而避免了对原数据库的多次扫描,降低了算法的复杂度。为了缩减搜索空间,本文比较了基于不同效用上界的向下封闭性,在此基础上提出了新的的剪枝策略,减少了候选序列模式的数量。实验结果表明HUSP-Miner算法的挖掘性能相比现有的高效用序列模式挖掘算法有明显的优势,包括运行时间、候选模式的数量和可扩展性。针对不同约束的高效用序列模式挖掘,本文提出了多阈值高效用序列模式挖掘框架。传统的研究方法大多是用同一个最小效用阈值衡量所有序列模式。本文基于多阈值框架提出的HUSP-MMU算法,允许给每个项目设置不同的阈值,因而能够以不同的最小效用阈值挖掘高效用序列模式。为了提高算法效率,HUSP-MMU算法采用了本文设计的基于多阈值的向下封闭性,并结合了高效用序列模式挖掘技术的剪枝策略。实验结果表明HUSP-MMU算法能够有效地挖掘多阈值高效用序列模式,验证了算法结果的正确性和完整性。为了处理多维数据库,本文提出了多维高效用序列模式挖掘框架。在此基础上,本文提出了基于数据库转化的MDHUSPEM算法和基于模式连接的MDHUSPSD算法。MDHUSPEM算法通过数据库转化将原问题转化为高效用序列模式挖掘问题,有效利用了高效用序列模式挖掘技术。MDHUSPSD算法分别利用高效用序列模式挖掘技术和本文提出的DHUI-Miner算法挖掘了数据库的序列部分和维度部分,并通过模式连接生成多维高效用序列模式。其中,DHUI-Miner算法采用了本文设计的效用表和基于新的向下封闭性的剪枝策略,提高了算法的效率。实验比较了MDHUSPEM算法和MDHUSPSD算法在不同数据集下的表现。实验表明后者的性能比前者好,特别是对于维度较多的数据集。总体而言,本文结合了基础理论和实际应用,从算法效率、约束条件、数据形态三个层面,提出了新的模型、数据结构和剪枝策略,拓展了高效用序列模式挖掘的应用领域。