弱监督分类中若干问题的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cyberfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在强监督分类中,每个示例只与唯一正确的标记关联,期望学习到从特征空间到标记空间的映射函数。然而,许多现实分类任务无法满足强监督分类的严格要求,例如:(1)一个示例与多个标记关联;(2)一个示例与错误标记关联。为了适应这些现实条件,出现了两种弱监督分类框架,即多标记分类与噪声标记分类。在多标记分类中,每个示例可以与多个标记关联,期望学习到从特征空间到标记幂集的映射函数。为了提升多标记分类系统的学习性能,一种有效方式是通过操作特征空间来帮助构建多标记分类模型。其中,类属特征策略为每个标记导出其专有的特征表示,然后在此之上建立分类模型。现有类属特征多标记分类方法将类属特征生成阶段与分类模型归纳阶段分离,这种两阶段解耦策略可能导致次优的泛化性能。本文提出一种封装式类属特征多标记分类方法WRAP,通过基于经验损失最小化和成对标记相关性正则化的(核化)线性模型将两阶段耦合,在嵌入特征空间中为每个标记生成类属特征的同时学习一个(核化)线性模型。在十六个数据集上的对比实验表明,基于封装式的类属特征多标记学习方法可以有效提升学习系统泛化性能。在噪声标记分类中,数据集包含了一部分错误标记的噪声样本。为了处理这些噪声样本,许多噪声标记分类方法往往采用小损失技巧筛选可能的干净样本。此外,为了防止丢失有用的大损失样本,一些混合方法采用复杂方案融合多种其他技术以获得先进性能。本文提出一种集成加权噪声标记分类方法RLME,旨在探索更简单但更鲁棒的混合方法,通过多次随机等分数据集构造多对模型,然后借助预测分布与给定标记之间的距离计算样本权重。此外,RLME引入Mixup与标记遮掩实现数据增强与半监督学习,提高集成模型的一致性与鲁棒性。在真实大数据集上的对比实验充分展现了RLME处理标记噪声问题的有效性,取得了显著优于其他方法的分类性能。
其他文献
学位
学位
随着软件开发需求的不断增加,可复用软件代码的种类日益增多、规模日益增大,如何帮助软件开发人员为当前编程任务快速、准确地找到合适的应用程序编程接口(Application Programming Interface,API)进行复用,是智能软件工程的一个重要研究方向。现有的API推荐方法大多仅从用户使用的角度进行间接推荐(如采用词向量技术在Stack Overflow等软件开发讨论社区中查找在语义上
学位
敦煌古称瓜洲,除了自由灵动、充满神秘感的壁画艺术更是一个盛产鲜果的地域。不过受制于运输条件的限制,敦煌所产鲜果类产品的贩售在过去一直受到局限,迫使敦煌人将新鲜的水果加工为干果蜜饯制品以便于贮藏。随着经济发展,人们对衣食住行的要求逐渐增高并开始更加关注饮食安全与健康问题,对饮食上的要求增高增加了水果行业的市场需求,对鲜果类市场的要求进一步增高,促使着鲜果类市场化的程度进一步提高,品牌化经营成为了实现
学位
学位
近年来,居民收入不断提高,消费意识逐渐增强,银行的贷款业务量提升,这对银行的风控能力提出了更高的要求。目前,银行客户的行内交易流水信息激增,数据管理工作的难度增大,银行内部对贷后客户的评估方式仍较为传统,评估方式准确率低,业务周期长,银行需要效率和准确率更高的贷后评估模型。本文设计并实现了基于长短期记忆神经网络和卷积神经网络融合的LSTM-CNN模型,能够更准确的预测客户贷款逾期的可能性,及时进行
学位
学位