融合样本分布结构的多任务主动学习算法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:YX19781987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网领域迎来人工智能的热潮,在机器学习与深度学习等领域,多任务学习已发挥举足轻重的作用。多任务学习弥补了传统单任务学习中学习知识不共享的缺陷,通过多任务同步执行的方式以提高每个任务的泛化性能,相关任务之间的信息共享会影响并促进每个任务的学习效率。但是,在大多数现实生活场景中,标记数据的获取代价昂贵,需要消耗大量人力物力。同时,多个任务数据的堆叠也会产生数据冗余,增加任务的训练规模,降低模型的训练效率。为了降低数据标记的成本,同时在海量数据中挖掘具备高信息质量的数据,需要一定的数据样本选择策略来达成这一目标,而主动学习正是解决此类问题的有效方法。在主动学习方法中,训练过程会迭代的进行。每次迭代,未标记的样本都会被有策略地进行筛选,被筛选出的样本会得到标记并被加入训练集中进行模型训练。在同等条件下,主动学习方法过程相较于传统学习方法所需的标记训练样本更少,却能够改善模型性能,得到更高精度的模型。本文将主动学习方法引入到多任务学习框架中,在支持向量机基础上,提出两种融合样本分布结构的多任务主动学习分类方法,从样本不确定性与样本多样性两个角度衡量样本的信息量。首先,我们提出了一种分类器层面的不确定性准则,简称Classifier-Level Uncertainty(CLU)。其次,我们提出了基于聚类方法与基于划分方法的两种多样性准则,分别简称为Partition-Based Diversity(PBD)和Clustering-Based Diversity(CBD)。其中,不确定性准则筛选出能够决定分类平面的支持向量,确保样本的信息价值。同时,为了保留样本的分布结构,多样性准则通过聚类方法与空间划分方法,筛选出具备代表性结构信息的样本。两种多样性准则分别与不确定性准则相结合,形成两种不同的多任务主动学习方法。最后,我们将本文所提出的两种方法与现有的主动学习方法应用到文本分类场景中,并进行了对比实验。实验结果表明,在多个文本数据集上,我们的方法在各项评估指标上的表现优于现有的主动学习方法。
其他文献
学位
学位
学位
21世纪,是大数据的时代,机器学习和数据挖掘广泛应用在零售、医疗以及交通等众多领域。随着Hadoop和Spark等大数据存储平台的逐渐成熟,各零售企业的业务数据及客户数据的存储已不成问题,如何分析和挖掘这些数据,使其转化成有价值能为公司带来收益的信息,对各个企业来说都是一个挑战。在“新零售”的环境下,各零售企业之间的竞争转为数据竞争,转为技术竞争。大数据及其相关技术有效推进了零售业的发展。商品销量
学位
随着人们的生活水平越来越好,家电行业市场特别是空调行业,仍在快速发展,家电龙头企业的的市场占比越来越高,制造工厂的产量和效率面临跨越提升的压力。空调生产过程中重要的出厂安全检测项目,属于防触电保护的电气强度、接地电阻、绝缘电阻、泄漏电流等项目,是最基本、最重要的安全检测项目,都必须进行在线全数检验。而当前行业上主要以人工检测的手段,存在对操作员工的安全隐患、工作效率低,且随着产量的增加,生产线速的
在数字经济时代,随着移动互联网与智能设备不断地融进人们的生活,人们每天在工作和娱乐的过程中会产生大量日志数据,这些日志数据作为一种重要的资源,极具挖掘分析的价值。比如在运营APP时,除了通过广告等渠道拉取新用户之外,公司还采用了日志数据分析的手段,向用户提供精准服务,从而实现每日活跃用户量的提升。然而,面对海量且多样化的日志数据,现有的大数据技术在其应用方面依然存在着不足之处,致使企业不能更好地利
随着生活水平不断提高,产品的个性化需求越来越突出,产品生命周期缩短,废弃电子产品日益增多。基于环境保护,越来越多的国家开始重视闭环供应链的发展,开始回收废弃电子产品,发展再制造产业。但与发达国家相比,我国再制造产业仍处于探索初期,限制我国再制造发展的原因是再制造作为一个新概念尚未得到广泛认可,对于再制造产品“不了解”、“不认可”,导致“不敢买”,消费者对于再制造产品的支付意愿都很低;同时,制造商不
目的比较跟骨牵引与石膏外固定在Denis-Weber C型踝关节骨折术前治疗中应用的效果。方法回顾性分析自2017-01—2018-12行切开复位内固定治疗的100例Denis-Weber C型踝关节骨折,52例入院当天进行跟骨牵引治疗(跟骨牵引组),48例进行石膏外固定(石膏固定组)。比较2组术前张力性水泡发生率、术前皮肤坏死发生率、术前消肿时间、住院时间,以及入院后1、3、5 d患肢肿胀值。结
本文根据智能家居领域的需求,将针对两类智能家居数据源进行用户行为分析研究:第一类是面向智能手机传感器的用户行为识别;第二类是面向智能设备传感器的用户行为预测。针对目前智能家居用户行为研究算法,未能很好地针对数据集的特点对学习模型进行适配性的设计,提出了相应的智能家居用户行为识别与行为预测算法,并详细地分析了实验结果。本文主要研究工作如下:(1)文中介绍了智能家居的概念以及智能家居数据采集方式,重点