偏多标记学习算法研究及其在图像语义理解中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zyf115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统多标记学习算法中,用于训练的数据集中的每个样本被精确标注了多个相关标记,但由于近年来数据量急剧增长,精确数据集在现实情况中很难获取。现有的多标记学习算法对于不精确数据集的考虑通常是针对标记缺失的情况,然而在很多情况下数据集中的一个样本只是被大致分配了一组标记,该组标记中除相关标记以外还有一些不相关的噪声标记。为了解决多标记学习中的标记冗余问题,近年来提出了一个新的学习框架,即偏多标记学习框架。偏多标记学习框架的定义中,每个样本包含一组候选标记集,候选标记集中包含全部的真实相关标记,数量未知但至少一个,以及一部分噪声标记,偏多标记学习的任务就是利用冗余标记数据集学习得到一个准确的标记预测模型。偏多标记学习难点主要在两个方面,一是训练数据集本身是存在噪声标记的,模型训练过程中要考虑到噪声标记对模型准确度的影响,二是样本特征数据通常也含有噪声,比如在图像语义理解中,由于图像的遮挡、模糊、光照等影响导致的特征噪声,其在训练过程中同样会对模型预测产生负面影响。基于以上两点,本文提出了两种可以应用在图像语义理解方向上的偏多标记学习算法。基于多子空间表示的偏多标记图像语义理解算法。该方法在训练过程中综合考虑了训练数据集中的冗余候选标记和噪声特征在模型的训练过程中的影响。首先,初始存在噪声的标记空间被分解成一个低维标记子空间和一个标记相关性矩阵,用以减少候选标记集中噪声标记的对预测模型的影响。然后利用样本特征间的相关性将初始含有噪声的样本特征映射到一个低维特征子空间,以减少样本噪声特征对预测模型的影响。最后引入图拉普拉斯正则项来约束标记子空间,以保持其与特征之间的内在结构一致性,同时对特征之间的相关性施加正交性约束以保证特征子空间的区分度。在不同数据集上进行的大量实验证明了该偏多标记学习算法在包括图像语义理解的多方领域中都具有优越性。基于共享特征的多视图偏多标记图像语义理解算法。该方法在训练过程中充分考虑训练集中的多视图中部分视图特征缺失在模型训练过程中的影响。首先,利用缺失视图特征指示矩阵对每个视图特征矩阵进行分解,得到一个共享视图矩阵。然后将初始存在噪声的标记矩阵分解成一个低秩的精确标记矩阵和一个稀疏的噪声标记矩阵,使用精确标记矩阵进行模型的训练消除噪声标记影响。最后引入图拉普拉斯正则项来约束精确标记矩阵和视图特征矩阵,以保证特征和标记之间的内在结构一致性并对系数矩阵引入低秩约束。在不同数据集上进行的大量实验证明了该方法在多视图偏多标记学习以及图像语义理解应用中具有优越性。
其他文献
不均衡分类问题在实际生产生活中频繁出现,如生物信息学、电信或金融风险评估和文本分类等。传统分类器由于期望整体精度最大化,常常忽略少数类(样本较少的类别)的分类精度,然而少数类的分类精度往往比多数类(样本较多的类别)更为重要。针对这一问题,一种有效的解决方法是基于数据增强将不均衡数据恢复为均衡数据。这种方法的目标是生成具有较强类判别性和多样性,且真正有助于分类器构建的少数类新样本。然而,在不均衡数据
标记分布学习是一种新的可以用来解决标记多义性问题的学习范式,是对单标记学习和多标记学习的进一步泛化,已经成功应用于人脸情感分析、头部姿态识别以及人脸年龄估计等领域。在标记分布学习的标记集合中,标记间关系广泛存在并且有助于提升标记分布学习性能。因此本文从标记间关系这一角度出发,对标记分布学习展开深入研究。首先,针对局部标记间关系展开研究。当前存在的利用局部标记间关系的算法都服从一个假设,即样本之间的
闭链连杆式移动机器人是一种具有大尺度变形能力,高越障能力的地面移动机器人。目前对闭链连杆式移动机器人的研究主要集中于论证移动的可行性,对于其移动能力及评价体系仅有较少的涉及。本文从平面6R单环运动链的理论研究出发,对平面6R单环运动链为基础构造的闭链连杆式机器人的移动进行数学建模并进行了运动学分析、动力学分析和步态规划,提出6R机器人移动理论,新理论得到了这种运动链连续移动和越障过程的步态通解,并
随着科学技术的发展,各行各业对材料以及结构的安全性要求日益提高。由于材质自身缺陷以及长期受到各种载荷的影响,材料和结构在生产及服役的过程中会产生各种类型的缺陷,比如裂纹、孔洞以及夹杂等,进而导致重大安全事故,造成人员伤亡和巨额财产损失。因此发展有效的无损检测技术至关重要。超声检测技术由于其具有灵敏度高、穿透能力强、缺陷定位准确、操作简单、对人体无害等优点被广泛应用。但是该方法针对复杂形状缺陷的定位
随着跨境贸易的快速发展,商品的协调制度(Harmonization System,HS)编码分类作为企业进出口贸易的重要海关程序,其准确性和高效性越来越受到相关部门的重视。如果能够自动、准确、高效地进行商品HS编码分类,将有助于海关部门通关查验、关税计算等工作的顺利进行,同时也可以帮助企业提高通关效率,降低通关成本。商品HS编码分类任务可以看作是一个文本分类任务,即给定商品的一段描述信息,目标是确
人脸活体检测作为人脸识别系统的重要安全保障环节,近几年在生物识别技术领域中飞速发展,广泛应用于移动支付、门禁系统和金融认证等场景。然而,人脸识别系统容易受到来自打印图像、数码图像以及回放视频等不同方式的攻击,使得人脸识别系统的安全性受到严重的威胁,所以,人脸活体检测在人脸识别系统中起着至关重要的作用,具有重要的研究价值。人脸活体检测在生物识别技术领域中是备受关注的研究方向,但目前仍存在以下几个问题
信号调制方式识别是指在未知调制信息的情况下对接收到信号的调制类型做出正确判断。通信信号调制识别不仅在民用领域意义重大,在军事及国家安全方面也都发挥着至关重要的作用,在电子战中,快速准确地判断出未知信号的调制方式是制胜的关键。在人工智能浪潮下,将机器学习算法与调制识别技术结合已经成为了发展趋势。本论文“基于机器学习的数字信号调制识别及FPGA设计与实现”主要研究基于机器学习的调制识别算法和神经网络的
开放车间调度问题是一种典型的组合优化问题,在制造业、交通和物流等领域被广泛研究。这类问题具有复杂的约束和巨大的解空间,因此求取最优解十分困难。目前,传统算法大都基于特定规则或局部搜索的策略来获得次优解,只适用于解决特定分布的问题,具有较大的局限性。近年来,深度强化学习在解决各类复杂决策问题中展现出较强的适用性和可扩展性,因此,本文基于深度强化学习求解开放车间调度问题。论文的主要工作如下:本文设计并
市政排水管道在城市建设中的应用逐渐增大,但由于地下空间不断开发,管道破损沉降,容易发生管道塌方、地面塌陷等严重情况。为了保障排水管道正常工作,市政工作井然有序,对排水管道进行应急检测具有重要意义。由于排水管道管径大小不一以及管内存在大量易燃易爆的有毒气体,人工下井作业十分困难,因此采用机器人下井完成管道应急检测是十分重要的。目前已有的管道检测机器人大多数只适用于新管道验收,很难适应排水管道这种恶劣
图像描述(Image Captioning)是指计算机对给定图像自动生成简洁的自然语言描述。计算机图像描述能够将图像信息转化为文本信息,从而实现信息不同模态之间的转换,在图像索引、智能教育、(盲人)视觉辅助等各方面具有广阔的应用前景。图像描述是一个多模态学习问题,不仅需要准确地识别对象、属性并捕捉到它们之间的关系,还需要考虑语法的准确性和语义的多样性,因此图像描述的实现需要结合计算机视觉、自然语言