面向类别不平衡数据的代价敏感分层分类方法

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:hudaxia110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少类样本分类精度较低导致了总体分类精度的降低;(2)在分层分类过程中,层间分类错误导致错误下传到下一层的子任务中。本文针对类别具有层次结构的类别不平衡的分类任务,通过研究类别相关性和层次结构信息进行模型构建,主要的研究内容包括如下两点:
  (1)基于类别层次相关性的代价敏感分层分类方法。针对传统分层分类方法分类过程中超平面偏向数据集中多数类而轻视了同样重要的少数类的问题。本方法分类过程中使用分治的思想,将一个任务变成若干较小规模的子任务,以层间各个类别进行任务分解,再根据数据集中类别比例差异建立代价敏感参数并且设置出相关的判断阈值给不同层次间赋予不同代价权重,最后提出基于类别层次相关性的代价敏感分层分类方法。
  (2)基于多尺度信息熵的代价敏感分层分类方法。针对传统分层分类算法忽略了多数类别和少数类别中反映出的信息差异和类别数量差异问题。本文通过计算每层层间各个类别的信息熵,利用信息熵建立阈值约束策略防止错误下传,以分层信息熵和类别比例差异建立代价敏感函数,最后提出基于多尺度信息熵的代价敏感分层分类方法。
  
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
随着大数据时代的来临,全球互联网产业展现出巨大的发展活力和韧性,在数字基建和数字经济迅猛发展的同时,我国网民规模、互联网普及率以及平均每周上网时长都有迅速增加扩大趋势,这导致网民们每天都充斥在海量的网络信息里,产生了严重的信息过载问题。如何解决当前信息过载问题已经非常迫切,需要对海量信息进行信息抽取和过滤,减轻负担。而对于信息抽取最重要的一环就是自动文摘,自动文摘就是利用计算机对文本中心内容进行简