基于混合模型的非均衡数据分类研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:cryingboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步,各行各业无时无刻不在产生大量的数据,也面临着海量数据的分析与处理的难题,如何从海量数据中获得所需的价值成为学术界和工业界关注的焦点。海量数据不仅规模庞大,还常常呈现不均衡性,即隶属于正常/多数类别的数据的数量与隶属于异常/少数类数据的数量之间的差异很大。传统的数据分析、处理方法很难应对不均衡性。基于此,本文利用混合模型在描述数据分布上的优势,对非均衡数据分类问题展开研究。本论文的研究内容主要包括以下几方面:(1)基于高斯混合模型提出了一种GMM-Na?ve Bayes算法,用于解决不均衡数据的分类。该算法的改进在数据处理层面,主要工作是设计了一种基于GMM的过采样算法,即,通过GMM对少数类样本进行建模,然后利用训练好的GMM进行采样,从而获得新的少数类样本。通过该算法可以有效的解决传统的过采样算法没有深入研究样本集属性特征的问题,得到的新的少数类样本能够有效地提升非均衡数据的分类效果。(2)利用高斯混合模型,提出了一种集成单类学习方法,从学习算法层面解决不均衡数据的分类问题。具体而言,针对传统的单类学习算法中存在模型对样本描述能力不足的情况,将GMM和SVDD算法相结合,通过GMM对多数类样本进行聚类,然后对于每个类使用SVDD算法训练基单类分类器,最后对基单类分类器进行集成。这种方法对多模多聚簇的样本描述更加准确,使得分类器对非均衡数据分类的性能得到有效地改善。(3)针对在使用GMM进行聚类的过程中,需要事先指定反映少数类样本分布中的簇的数量,并且分类结果对这个值也很敏感的问题,提出基于狄利克雷过程混合模型(DPMM)的过采样算法。首先,使用高斯逆Wishart分布作为狄利克雷分布的先验,通过CRP方式对少数类样本的分类进行初始化,接着使用Collapsed Gibbs采样算法迭代更新,从而训练出反映少数类数据分布的DPGMM,最后,对训练好的DPMM进行采样,从而获得新的少数类样本。通过这种方法,我们能够获得少数类样本集最优的分类,进一步提升非均衡数据的分类效果。
其他文献
本研究以苏教版高中语文教材的古典诗歌为研究对象。主要运用概念分析法、文献研究法、实践验证法、调查研究法等,对苏教版高中教材、新课程标准、江苏高考考试说明等内容进
公证证据保全是不同于公证机构的证明行为的保全行为,是公证机构行使保全职能的体现。作为与法院证据保全并行的证据保全种类之一,公证证据保全具有以下优势:更为便捷、高效
为初步了解上海市崇明岛地区奶牛养殖场IBRV和BVDV的流行情况,在两个规模化养殖场共采集385份血清样品,进行IBRV和BVDV抗体的检测与BVDV病原的检测。结果显示,两个规模化养殖
中国现代交通运输业增长质量状态的量化是交通运输业增长质量问题由定性分析转向定量分析的基础。本文从现代交通运输业增长质量的内涵出发,构建出由18个基础指标构成的测度
在突发事件中,"新闻报道也是救援"已成共识。媒体在突发灾难事件发生的第一时间,及时准确、公开透明、高效有序地开展新闻发布,对于推动事件的妥善处理至关重要。本文将以"东
质量管理是企业提高自身竞争力的主要因素,但是随着大数据时代的到来,传统的质量管理模式已经不能满足企业的需求。基于此,本文先是介绍了TRIZ理论、大数据以及两者之间的关
3D打印技术作为第三次工业革命的代表性技术之一,越来越受到工业界和投资界的关注。当前3D打印成本高,不仅仅是企业级3D打印机价格高,更重要的是3D打印材料价格偏贵。因此,在
<正>(这是一节借班的公开课,课前,学生已做了认真的预习。)初读感知师:今天我们学习一篇课文《紫藤萝瀑布》。大家知道,紫藤萝是一种植物,可是怎么跟“瀑布”连在一起了呢?这
刘晓东教授在《解放儿童》一书中指出:有这么一种儿童观,它看不起儿童,认为儿童与成人相比,最明显的特征就是无知,于是相应的教育便是把成人世界的东西搬到儿童脑瓜里去。也有一种
本文以"东方之星"客轮翻沉事件报道为例,讲述如何借助3D动新闻报道重大突发事件,为受众提供一种"电视里看不到"的阅听体验。