论文部分内容阅读
数据挖掘是指数据库中的知识发现,在信息技术发展的过程中扮演着越来越重要的角色。对比模式(Contrast Patterns)挖掘作为数据挖掘领域里的一个核心内容,其为分类、聚类、关联规则等任务奠定了基础。对比模式是指在两个数据集中,支持度发生很大变化的项集,它表现出一种强大的数据区分能力,利用这种区分特性构建的模式分类器往往比一些朴素的分类器有更好的分类效果。然而,目前大多数基于对比模式的挖掘算法都是建立在这样两个假设上:第一,认为训练数据集在每个类别上的数目分布大致相同。通过这种类平衡分布假设构建的分类器在遇到不平衡数据集时,常常会因为稀有类数据的信息被大类数据的信息覆盖,导致分类效果不理想。第二,认为所有的样本来自同一个领域。当训练数据集和测试数据集来自不同领域时,重新收集训练数据集以及重新构建分类模型的代价都是很昂贵的。本文分析了以上的假设,主要做了下面几项研究工作:(1)研究对比模式的性质,对不平衡数据集下多数类与少数类之间的关系对对比模式定义的影响,提出了平衡显露模式BEPs(Balance Emerging Patterns)的概念。研究平衡显露模式性质,从而建立不平衡数据集的对比模式挖掘基础。在此基础上提出了基于滑动窗口的不平衡数据集对比模式挖掘算法。该算法首先对不平衡数据集建立一个滑动窗口来缩小数据的不平衡度,提高模式挖掘的泛化能力。在挖掘过程中,让正类数据固定在窗口中,负类数据在窗口流动,使之与正类数据构成一个不平衡度相对平缓的数据集。在窗口内,采用基于排序FP树的结构来挖掘平衡显露模式,直到窗口数据结束。最后通过对子分类器的组合集成来构建的一个最终分类器。(2)共享平衡显露模式(Shared Balance Emerging Patterns)实现了多领域不平衡数据集之间的知识迁移。针对共享平衡显露模式SBEPs的性质,本文提出了基于SBEPs的衡量多领域不平衡数据集的相似性的算法。该算法给出SBEPs相似质量的计算方法,包括求整体相似质量和平均相似质量;然后,将SBEPs数量进行标准化处理。通过单位数据集中所具有的SBEPs的质量来衡量两个不平衡数据集的相似贡献,相似贡献的值越大,表明两个不平衡数据集的相似程度越大,同时还对不平衡数据集相似度给出了量化的方法。