论文部分内容阅读
随着科技的进步,各行各业无时无刻不在产生大量的数据,也面临着海量数据的分析与处理的难题,如何从海量数据中获得所需的价值成为学术界和工业界关注的焦点。海量数据不仅规模庞大,还常常呈现不均衡性,即隶属于正常/多数类别的数据的数量与隶属于异常/少数类数据的数量之间的差异很大。传统的数据分析、处理方法很难应对不均衡性。基于此,本文利用混合模型在描述数据分布上的优势,对非均衡数据分类问题展开研究。本论文的研究内容主要包括以下几方面:(1)基于高斯混合模型提出了一种GMM-Na?ve Bayes算法,用于解决不均衡数据的分类。该算法的改进在数据处理层面,主要工作是设计了一种基于GMM的过采样算法,即,通过GMM对少数类样本进行建模,然后利用训练好的GMM进行采样,从而获得新的少数类样本。通过该算法可以有效的解决传统的过采样算法没有深入研究样本集属性特征的问题,得到的新的少数类样本能够有效地提升非均衡数据的分类效果。(2)利用高斯混合模型,提出了一种集成单类学习方法,从学习算法层面解决不均衡数据的分类问题。具体而言,针对传统的单类学习算法中存在模型对样本描述能力不足的情况,将GMM和SVDD算法相结合,通过GMM对多数类样本进行聚类,然后对于每个类使用SVDD算法训练基单类分类器,最后对基单类分类器进行集成。这种方法对多模多聚簇的样本描述更加准确,使得分类器对非均衡数据分类的性能得到有效地改善。(3)针对在使用GMM进行聚类的过程中,需要事先指定反映少数类样本分布中的簇的数量,并且分类结果对这个值也很敏感的问题,提出基于狄利克雷过程混合模型(DPMM)的过采样算法。首先,使用高斯逆Wishart分布作为狄利克雷分布的先验,通过CRP方式对少数类样本的分类进行初始化,接着使用Collapsed Gibbs采样算法迭代更新,从而训练出反映少数类数据分布的DPGMM,最后,对训练好的DPMM进行采样,从而获得新的少数类样本。通过这种方法,我们能够获得少数类样本集最优的分类,进一步提升非均衡数据的分类效果。