论文部分内容阅读
当今时代,随着生活中越来越多的数据和信息不断涌现,数据挖掘技术应运而生。序列挖掘作为数据挖掘技术中的一种重要方法,旨在从庞大的序列数据中发现隐藏的潜在有用模式及信息,它在信息网络、生物医学、金融行业、自然灾害预测等方面都有重要的作用。随着应用的发展,数据集的规模越来越大。现有序列挖掘算法挖掘效率较低,挖掘得到的序列模式过多,用户很难直接从中找出有用的序列模式,往往需要进行多次挖掘和筛选,严重影响了挖掘的价值。如何从海量序列数据中挖掘得到有用的关键模式信息成为序列挖掘领域面临的一个重要问题。针对这一问题,本文提出了种基于隐马尔可夫模型的两阶段序列挖掘算法:(1)使用基于K-means的序列预聚类算法,对序列数据进行预聚类处理。(2)使用基于HMM的高效用序列模式挖掘算法,对聚类得到的各簇集进行高效用模式挖掘。通过不同数据集实验,证明了算法在挖掘有用序列模式方面和传统序列模式挖掘算法相比具有更好的效果。针对用户行为分析领域——IaaS云平台用户性能故障行为分析方面,基于上述算法进行了应用和实现。本文首先深入研究了序列模式挖掘典型算法,对比分析了不同算法各自的优劣和适用场景。然后针对序列相似性度量的特殊性,提出了基于序列编辑距离的相似性度量方法,在此基础上,提出了一种基于K-means的序列预聚类算法,用于序列挖掘前数据的预处理分类。其次针对无法有效从挖掘得到的大量序列模式中找出有用模式的问题,提出了序列模式有用性度量指标,用以评估序列模式的有用性,在此基础上,提出了一种基于HMM的高效用序列模式挖掘算法,用于挖掘簇集中的有用模式序列。接着结合上述两个算法,提出了基于HMM的两阶段序列挖掘算法,通过聚类和挖掘两阶段最终获取有用的序列模式集。最后基于HMM两阶段序列挖掘算法在云平台用户性能故障行为分析中进行了系统应用实现,有效解决了云平台性能故障源定位和故障行为预测问题。