基于类别相关性的鲁棒分层特征降维方法研究

来源 :闽南师范大学 | 被引量 : 0次 | 上传用户:chengm1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据中的海量样本、大规模类别和高维特征为机器学习带来了丰富的信息。类别之间还往往呈现出复杂的结构关系、不可避免存在的噪声数据也降低了数据的质量和可用性。这些数据特点给传统机器学习的特征降维方法和模型带来了严峻挑战:(1)大量的特征引起了维度灾难问题;(2)复杂的类别层次结构破坏了传统特征降维方法对类别相互独立的假设;(3)低质量数据破坏了传统特征降维方法对数据正确性的基本假设,这导致传统降维方法处理大规模的分类任务时表现不好,甚至不适用。本文针对类别具有层次结构、数据质量低的分类任务,充分挖掘和利用类别的层次结构信息,设计噪声过滤机制,进行基于类别相关性的鲁棒分层特征降维方法研究,主要包括以下三个研究内容:1)基基于类别离散度的分层特征提取。针对传统特征提取方法忽略了类别间复杂层次关系、所提特征容易导致重大分类错误的问题,采用“分而治之”策略,以类别结点为单位分解分层分类任务,再对不同粒度的任务分别定义类间离散度矩阵、类内离散度矩阵,最终根据判别分析思想提出一种基于类别离散度的分层特征提取方法。2)基基于类别相似关系约束的鲁棒分层特征选择。针对传统特征选择方法忽略类别间关系、大多特征降维方法鲁棒性不足的问题,根据上层粗粒度任务包含当前任务,应该与当前任务具有一定的相似性,定义一个类别间相似性的关系约束,再利用Capped最小二乘损失函数过滤野值噪声数据,最终提出一种基于类别相似关系约束的鲁棒分层特征选择方法。3)基基于类别中心泛化约束的鲁棒分层特征选择。针对传统特征选择方法忽略类别间关系、大多特征降维方法鲁棒性不足的问题,认为当前粗粒度分类任务包含其下属所有细粒度分类任务,该粗粒度类别是其子类别的泛化,应该靠近其子类的中心,据此定义一个类别间中心泛化约束,再利用鲁棒的Capped hinge损失降低噪声数据对模型的作用,最终提出一种基于类别中心泛化约束的鲁棒分层特征选择方法。
其他文献
随着海上航运业的不断发展,人们对海上通信需求日益增长,对船舶间点对点通信的期望也愈来愈高。随着国际电信联盟和国际航标协会提出的甚高频数据交换系统(VHF Data Exchange
近几十年来实现特定功能的集成光波导器件快速发展,成为光通信产业迅速提升的主要推动力,但是光波导器件存在众多技术分支,其结构和形态各异,并且其长时间以来技术标准不统一
作为现实世界的一种典型抽象,图(graph)在机器学习、人工智能、知识图谱等相关领域都发挥着重要作用。随着图数据规模的不断增长,单机已经无法满足实际计算的需求,分布式图计
随着现代通信技术的发展,越来越多的无线通信设备加入了现代通信设备体系,因此对系统的通信质量提出了更高更多元的要求。作为无线通信系统中的关键设备之一,天线往往能够决
机械轴承由于在不断工作过程中会有磨损,经常会有故障产生。因此有必要发展出对其故障诊断更完善的体系。本文在分析轴承故障的研究现状的基础上,提出了一种基于改进CAO算法
用晶体作为拉曼介质的固体拉曼激光器因为其结构简单、转换效率高、稳定性好的优良特性被广泛应用于各个领域。与气体和液体拉曼介质相比,固体拉曼介质具有粒子浓度大、拉曼
有雾天气下,空气中大量的悬浮颗粒使景物表面的光线发生散射和衰减,雾浓度越高,图像的景深越深,衰减程度越明显,视觉系统对图像特征提取效果较差,给人类日常工作生活带来了安
刺绣图像作为青海省特有的非物质文化遗产之一,其艺术价值在青海众多民间艺术中最具鲜明民族特征和地域特性,刺绣图像作为刺绣艺术内容信息的载体,有着其重要的研究价值。近
近年来,随着集成电路工艺的飞速进步,无线电通信技术的发展进入了一个崭新的阶段。N通道滤波器由于具有容易集成、中心频率可程控调节、频率选择性高和线性度好等优点,因而广
公司治理是公司金融领域的核心问题之一,其中股东和管理者之间的委托代理问题更是公司治理研究的经典主题,学术界关于股东对公司价值影响的文献非常丰富。相关研究最早可追溯