基于矩阵低秩约束的弱监督多标记学习算法研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:hankeycncn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标记学习是传统机器学习任务的一种框架,在多标记学习任务中,一个对象往往同时与多个语义标记相关联。现实场景下,精准标记信息很难获得,研究样本的监督信息往往存在缺失、有噪声、不准确等问题,因此弱监督框架下的多标记学习近年来受到广泛关注。现有弱监督多标记学习算法主要集中于研究三类问题:第一类是标记缺失问题,在此类问题中,研究示例的标记信息仅存在缺失,而不存在冗余噪声问题;第二类是标记冗余问题,此类算法重点关注研究示例的标记信息完整但存在标记冗余的问题;第三类是特征缺失问题,相关算法主要研究特征缺失下的多标记学习问题,其中一部分算法关注特征与标记信息同时有缺失情况下的多标记学习问题。然而实际应用中,人们为样本标注时会不可避免地出现漏标、错标、多标的情况,因此标记缺失与冗余标记更有可能同时存在于研究示例的标记信息中,但很少有算法关注此类问题。同时,遮挡、光照影响和低分辨率等因素导致所获得的示例特征往往是有噪声的,而不仅仅是特征缺失,这可能会降低现有学习模型的鲁棒性。针对上述两个不同的研究难点问题,本文分别对应提出了两个弱监督多标记学习算法。基于代价敏感标记排序的弱监督多标记学习算法。该算法针对第一类与第二类问题,即标记缺失与噪声标记同时存在于标记信息中的问题,在填充缺失标记的同时去除噪声标记。与需预先给定指示矩阵的大多数现有研究不同,该算法无需提前给定指示矩阵来标定缺失或冗余标记的位置,而是通过标记置信度来反映标记与其对应示例间的相关性,通过代价敏感的排序损失来对每个示例与所有标记(包括缺失与冗余标记)的相关性进行排序。此外,为充分利用特征空间与标记空间的相关性,该算法利用矩阵低秩表示与稀疏约束反映特征空间与标记空间、标记间的相关性和噪声标记信息的特性,提升模型的鲁棒性与泛化性能。大量实验表明了该算法在处理标记缺失与冗余标记同时存在的问题时具有明显的优势。基于矩阵低秩与稀疏约束的弱监督多标记学习算法。该算法针对第二类与第三类问题,即噪声特征与标记缺失同时存在的问题,首先将获取到的特征信息分解为理想化的特征矩阵与噪声矩阵,同时,基于相似示例具有相似视觉特征的考虑,将理想化特征矩阵约束为低秩矩阵,并根据噪声信息的稀疏特性,该模型假设噪声矩阵稀疏。此外,该算法采用线性自恢复模型来重构存在缺失的标记信息,同时可反映标记空间的相关性,保持标记相关矩阵低秩特性。该算法利用分解后的理想化特征矩阵与重构后的标记矩阵对模型进行训练,有利于提高模型的泛化性能。大量实验表明本算法泛化性能良好,针对上述问题具有很好的鲁棒性。
其他文献
随着反装甲技术和工业应用的发展,以纯铜为主的传统药型罩材料难以满足相关领域对于破甲弹侵彻性能的高要求,迫切需要开发新型药型罩材料。高熵合金颠覆了传统的合金设计思想
当前新型城镇化建设早已引起社会各方关注,随着中国经济社会的发展,新型城镇化会成为中国经济发展的有力举措,特色小镇作为加速经济发展专项,是构建城镇化发展的有力抓手,可有效助力城乡差距缩小、全面建设小康社会,成为承接社会投资的新热点。特色小镇的理念早已有之,自2014年初次提及,中央对特色小镇建设作了系列批示、指示,以及国家各部委顶层设计的推进,促进了特色小镇的发展与产业不断转型升级。我国的特色小镇经
随着全球新常态的不断发展,天生国际化企业已成为国内外学者关注的焦点。在复杂多变的市场环境中,双元创新对天生国际化企业的发展具有重要作用。然而,天生国际化企业多属于中小微出口企业,在其发展过程中面临着创新资源匮乏、外来者或圈外人劣势、新创企业劣势等诸多生存困境。跨界搜索作为天生国际化企业获取外部创新资源以及解构创新能力结构的逻辑起点,有助于解决天生国际化企业自身的诸多困境。然而,以往研究尚未从跨界搜
中国自古以来就是一个农业大国,农业一直是国民经济的命脉,农业的发展与否直接关系着社会的稳定与进步。建立农村信息服务机构,提高农村信息服务质量,解决农村信息进村入户工
随着市场对超低碳洁净钢的需求日益增大,RH真空吹氧技术迅速发展,该技术已成为生产高品质超低碳洁净钢的的核心,但由于缺乏真空状态下射流冲击高温熔体的基础理论研究,致使多
本论文综合运用岩心观察资料、测录井资料、镜下薄片资料、电镜资料及分析化验测试等资料,重点对准噶尔盆地二叠系下乌尔禾组储层进行了沉积相特征、岩石学特征、物性特征、
近年来,全球气候变暖逐渐成为人们关注气候变化的热点内容,CH4、CO2、N20等温室气体是影响全球变暖的主要因素。CH4含量虽占温室气体总量的比例相对较小,但其增温潜势相对较
MgO-C耐火材料具有很高的抗渣性,普遍应用于转炉和LF精炼炉内衬。本课题利用超真空高温润湿测试系统,通过座滴法探究多元熔渣与MgO-C耐火材料界面润湿、渗透和侵蚀等过程的反
生物特征识别作为计算机视觉的一个研究方向,一直受到国内外学者及各大企事业单位的广泛关注。作为生物特征识别技术中重要的研究方向,人脸识别技术由于其较高的商业价值和极为广阔的应用前景,发展尤为迅速。然而,尽管人脸识别技术己经发展了几十年,由于涉及复杂的现实场景应用,目前依旧存在许多的技术瓶颈尚未突破。本文沿着人脸识别的系统脉络,对其中的部分关键技术展开研究。选择CASIA-WebFace数据集作为训练
巴音都兰是二连盆地经勘探证实的富油凹陷,虽然前人已经对该研究区进行了大量的研究,但是对于研究区烃源岩产烃能力、原油地球化学性质、油气成藏特征等方面认识不够。因此,本文通过将地球化学资料和石油地质资料相结合的办法,利用先进的实验特色技术,对研究区烃源岩地化特征、原油特征、油气运移特征、成藏期次等成藏等方面进行了系统的研究。研究表明,巴音都兰凹陷主力烃源岩为阿尔善组和腾格尔组烃源岩。其中,阿尔善组烃源