论文部分内容阅读
大数据时代带来了信息量的指数增长,现实中各行各业积累了巨量的数据。由于数据采集难度和事件发生频率的不同,导致了各个类别的样本数量具有差异,形成了类别不平衡问题。类别不平衡问题造成了传统机器学习分类器的分类精度下降。已有的代价敏感学习方法能够较好地处理类别不平衡问题,然而复杂的类别中蕴含了类与类之间的层次结构关系。数据中类别具有层次关系的样本分布不平衡问题给机器学习分类任务带来了很大的挑战:(1)少类样本分类精度较低导致了总体分类精度的降低;(2)在分层分类过程中,层间分类错误导致错误下传到下一层的子任务中。本文针对类别具有层次结构的类别不平衡的分类任务,通过研究类别相关性和层次结构信息进行模型构建,主要的研究内容包括如下两点:
(1)基于类别层次相关性的代价敏感分层分类方法。针对传统分层分类方法分类过程中超平面偏向数据集中多数类而轻视了同样重要的少数类的问题。本方法分类过程中使用分治的思想,将一个任务变成若干较小规模的子任务,以层间各个类别进行任务分解,再根据数据集中类别比例差异建立代价敏感参数并且设置出相关的判断阈值给不同层次间赋予不同代价权重,最后提出基于类别层次相关性的代价敏感分层分类方法。
(2)基于多尺度信息熵的代价敏感分层分类方法。针对传统分层分类算法忽略了多数类别和少数类别中反映出的信息差异和类别数量差异问题。本文通过计算每层层间各个类别的信息熵,利用信息熵建立阈值约束策略防止错误下传,以分层信息熵和类别比例差异建立代价敏感函数,最后提出基于多尺度信息熵的代价敏感分层分类方法。
(1)基于类别层次相关性的代价敏感分层分类方法。针对传统分层分类方法分类过程中超平面偏向数据集中多数类而轻视了同样重要的少数类的问题。本方法分类过程中使用分治的思想,将一个任务变成若干较小规模的子任务,以层间各个类别进行任务分解,再根据数据集中类别比例差异建立代价敏感参数并且设置出相关的判断阈值给不同层次间赋予不同代价权重,最后提出基于类别层次相关性的代价敏感分层分类方法。
(2)基于多尺度信息熵的代价敏感分层分类方法。针对传统分层分类算法忽略了多数类别和少数类别中反映出的信息差异和类别数量差异问题。本文通过计算每层层间各个类别的信息熵,利用信息熵建立阈值约束策略防止错误下传,以分层信息熵和类别比例差异建立代价敏感函数,最后提出基于多尺度信息熵的代价敏感分层分类方法。