论文部分内容阅读
模式挖掘是数据挖掘领域的一个重要部分,为数据挖掘的任务包括分类、聚类、关联规则等奠定基础,显露模式(EPs)是一种新兴的知识模式,显露模式是那些来自于两个类中支持度变化幅度大的项集,所以具有很好的分类性能,对显露模式的研究是在一个数据集中的两个或多个类中进行的,而共享显露模式(Shared Emerging Patterns,SEPs)是两个数据集中相同和相似的显露模式,它表征一种共同特性,对应用在迁移学习和类推等领域有很大的潜力。本文主要针对SEPs的应用以及挖掘算法做了一系列的研究,主要工作和贡献包括以下几点:(1)研究SEPs的应用,提出一种利用SEPs来衡量数据集相似性的算法。该算法给出一种衡量SEPs质量的定义,结合SEPs的质量和数量来计算SEPs在数据集中的贡献,相当于量化SEPs的贡献,然后通过量化了的贡献评价数据集的相似性。实验结果表明,当在分类实验中选择相似的辅助数据,取共享知识量化成相似度后值大的,分类准确性比量化成相似度后值小的高,且不管辅助数据以任何比例和源数据组合都不影响实验结论。(2)针对SEPs挖掘算法中产生模式数量较少的问题,提出一种新的模式相似度衡量方法,该方法参考编辑距离衡量字符串相似度,用距离来衡量模式的相似度,但是不需要考虑模式的顺序。实验结果表明,该模式相似度衡量方法在其他条件相同的情况下产生的模式数量是之前算法的将近3倍。(3)针对SEPs挖掘算法的挖掘性能较低的问题,提出一种基于OSP-tree的挖掘算法,该算法采用排序模式树来存储数据集,减少在插入树时查找项所用时间,同时考虑到跳跃显露模式(JEPs)强大的分类性能,利用OSP-tree挖掘shared JEPs,在挖掘过程中加入剪枝策略,减少递归深度。实验结果表明,对于同一数据集,同一最小支持度阈值,同样挖掘shared JEPs,OSP-tree挖掘算法的时间耗费是sp-tree挖掘算法的将近2/3。