基于三重低秩正则化的鲁棒半监督多标记学习算法及其在图像标注中的应用

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:fanke26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像自动标注技术在图像检索领域发挥着越来越重要的作用,逐渐成为计算机视觉的研究热点。数字可视化技术的进步和发展使得大量的图像可以在网络上获取,用户可以根据自己的喜好从存储库中检索这些图像,然而这些图像大多数都没有描述信息。图像标注的传统做法是由人类来完成的,这是一种费时费力的标注方法,也是一种过于主观的标注方法。另一个难点是解决低层视觉特征(颜色、形状和纹理)与用于解释图像的高层语义特征之间的语义鸿沟问题。大多数图像检索方法是基于内容的图像检索(CBIR)和基于标签的图像检索(TBIR)方法。CBIR通过提取图像本身的颜色、纹理和形状等特征,在低层特征上进行工作,但由于语义鸿沟,一般用户无法使用它。TBIR的工作原理是根据文本查询和图像的手工标注之间的匹配来查找相关图像。但是它高度依赖于标签的可用性和质量。然而,手动标注的标记是主观的、模糊的、有限且带噪声的。近年来,该领域的研究已经通过图像自动标注的方法(AIA),将低层图像特征与高层语义之间的语义鸿沟联系起来。自动图像标注算法假设采集的图像样本具有语义标记和低层特征表示。该标注方法使用机器学习算法,然后可以训练它使用低层特征进行语义标签匹配。图像自动标注算法与多个标签相关联,图像标注是一个典型的多标记分类问题,因此,基于多标记学习的图像标注算法因其对图像赋予多个标签的良好语义表示而引起了人们的极大兴趣,并且与其他机器学习方法相比具有良好的可扩展性。多标记学习(MLL)用来处理具有多个标签的图像示例。尽管多标记学习有其重要意义,但它也有其局限性。其中一些限制包括:训练图像可能只被标注了部分的标签,标签可能是带噪声的或损坏的,由于它的不可用性和手工标记的质量,标注图像数量有限。因此,本文研究的目的是提高标注算法的性能,以解决上述局限性。对于图像自动标注算法的应用,大多数研究都能有效地利用不同的机器学习技术来挖掘不同标签之间的语义相关性。然而,大多数的研究在处理标签噪声或标签缺失方面还不够鲁棒,而且与大量未标记图像相比,标记图像的数量也是有限的。在本研究中,为了解除这些局限性,提出了一种新的多标记学习预测模型——基于三重低秩正则化的鲁棒半监督多标记学习算法,该模型有助于提高标注的性能。具体而言,该模型首先采用低秩表示(LRR)的优势,提前在图像的特征空间构建低秩约束系数矩阵Z。然后利用标签系数矩阵建立一个线性自相关模型,利用标签相关性来恢复可能存在噪声的标签矩阵。引入特征映射矩阵和自恢复系数矩阵的矩阵迹范数正则项来获取标签之间的相关性,并控制模型的复杂性。此外,利用基于图拉普拉斯流形正则项作为平滑算子,将未标记图像加入到训练图像中,并能显式地考虑标记图像和未标记图像的几何结构。利用LRR在特征空间图像中提前计算出的系数矩阵Z,计算出图像间的相似性,获取图像间的几何结构。为了保证模型的有效性,在五组广泛使用的图像数据集上进行了实验研究。其中,数据集Core15K共有4999幅图像,标签数为260个。ESPGame图像数据集是从在线游戏中采集的2万幅图像,标签数为268个。Iaprtc-12图像数据集包含19627幅包含多种语言描述的图像,包括291个标签。PASCAL VOC 2007图像数据集有9963张图像。从758名使用亚马逊机械Turk的员工中收集到的,总标签数为399个。NUS-WIDE图像数据集包含新加坡国立大学媒体搜索实验室收集的31570张图片,总标签数为430个。Core15K、ESPGAME和IAPRTC-12图像数据集的预处理步骤是使用SIFT算法进行特征提取来表示图像的视觉内容。对于PASCAL VOC 2007图像数据集,我们提取了三种类型的图像特征:GIST,颜色直方图和文字包直方图。对于NUS-WIDE的图像数据集,每幅图像都使用了三种类型的低层视觉特征,包括颜色信息、小波纹理和边缘分布。然后,经过预处理,对数据进行归一化处理,以提高数据分析的准确性和效率。因此,本研究适应了图像标准化类型。这些方法保证了数据中每个特征的值都具有零均值。由于本研究的目的是提高图像自动标注的性能,因此所使用的评价指标是平均准确率(AP@K)和平均召回率(AR@K)。这两个指标都将自动标注的图像标记与手动的标记进行比较。在建立评价指标评价新模型的有效性时,进行了三个实验。第一个实验的目的是评估在图像数据集上预测模型的性能。实验首先随机抽取数据集50%的数据作为训练数据的总数据X,其中分别选择20%的图像作为标记数据和80%的未标记数据。其余50%的数据集用于测试数据。每个实验在训练和测试的不同阶段中重复5次,并在选取的K个标签上将平均准确率和平均召回率结果与选定的五个最新多标记学习算法进行比较。详细的实验结果显示平均准确率和平均召回率为第一。所提出的方法优于其他所有比较方法。具体而言,随着返回标签数量的增加,平均查准率下降,而平均召回率有所提高。第二个实验使用不完全训练标签来评估该方法的性能,选择PASCAL VOC 2007和NUS-WIDE的图像数据集来检验所提出的模型对于最大缺失标签数分别为35和114的数据集的标记性能。从每个数据集中选取10%的数据集作为训练集,人工删除部分标记以验证模型对缺失标签的敏感性和鲁棒性。通过将10%的数据集分割成缺失20%、40%和60%的标记的数据集,并以平均准确率的平均结果为依据,完成了验证工作。当观察标记数从60%减少到20%时,该方法的观察百分比仅下降2.03%,而其他五种比较方法的降低率为4%至8%。结果表明,该方法对缺失标签的多标记学习具有更好的效果。该模型具有四个关键的参数α、β、η和λ,实验三对这些参数的敏感性进行了评估,验证了这些参数对模型性能的影响。为了评估灵敏度,选择ESPGame图像数据集用于实验,其中20%的数据集用于训练,而其余的80%用于测试。首先初始化λ为0.1,然后使用固定两个参数,修改一个参数的策略,参数的值分别从{0.001,0.01,0.1,1,10}中改变。通过对比平均准确率的结果,并考虑到模型性能达到最优时的参数情况,可以得出,当α=0.0 1,β=1,λ=0.1和η=0.0 1时,算法的性能达到最高。综上所述,本文提出了一种应用于图像自动标注的基于三重低秩正则化的鲁棒半监督多标记学习算法,并验证了该算法可以提高图像自动标注算法的性能。通过改进机器学习算法,解决了现有MLL算法的局限性。该算法在特征映射和标签空间中利用了标签相关性。引入迹范数正则项来获取不同标签之间的相关性,控制了模型复杂度。通过建立线性自恢复低秩模型,消除标记噪声,恢复缺失标签。为了考虑大量未标记图像,引入图拉普拉斯正则项,在特征空间上利用低秩表示的优势,构造低秩约束系数矩阵从而在已标记和未标记样本上获取样本空间的整体结构。实验结果表明,在训练样本不足和图像标记缺失的情况下,提出的模型仍能获得较好的效果。
其他文献
随着社会经济快速发展,大都市急促的工作生活节奏和环境生态疏离,使得人们的身心压力不断增大,游客对生态环境和精神生活的需求层次越来越高。同时,全面小康社会的建设成就,产生了大量的中高收入人群,而且闲暇休假的时间也在增加,大中城市周边的乡镇中高端旅游创新发展的条件日趋成熟。以康养旅游为产业的特色小镇越来越被旅游者所喜欢。广东梅州留隍镇地处广州、深圳、珠海等高度发达的大中型城市周边,濒临韩江流域中游,踞
东莞市重大科技专项自2009年设立以来,年均支持预算约6000万元,年均带动社会资本投入项目研发1.41亿元,带动项目单位完成项目产业化收益约8900万元,对产业共性技术攻关突破、人才聚集、社会经济发展起到了明显推动作用,但从单位资金撬动社会资本、科技成果产出、产业化收入情况看,远低于同地区风投和股权投资产生的效益比,约30%的项目存在进展不顺需延期或无法进行终止的情况,并始终面临与产业界实际技术
基于文本库的自然语言问答(DBQA)任务是指,给定以自然语言形式出现的问题,在每个问题对应的候选文本库中找到并返回最相关的答案。其特点在于文本库中是非结构化的信息,并且
随着高速铁路运营速度的提高,列车负荷不断增大且高速运行时持续取流,高速铁路牵引供电系统对沿线平行敷设的电力电缆产生的电磁干扰愈发明显。为了研究高速铁路牵引供电系统对平行电缆的电磁干扰机理,分析处于不同区段时的影响因素和规律,找到降低平行电缆电磁干扰的防护措施。本文将与高速铁路平行的电力电缆作为研究对象,从电磁耦合理论、不同区段电磁干扰因素及特性、工程防护措施等方面展开研究,具体工作总结如下:首先,
协同过滤技术是目前推荐系统中应用最为广泛和成功的技术之一,其基本思想是利用与目标用户兴趣相投、拥有共同经验群体的喜好来为目标用户推荐感兴趣的信息。协同过滤技术被
意识形态建设历来是我们党和国家高度重视和不断推进的工作,意识形态领域的巩固和加强不仅是意识形态建设的题中应有之义,而且是涉及党的前途命运和国家长治久安的生命线。作为马克思主义政党的中国共产党始终坚持从辩证唯物主义和历史唯物主义的世界观出发,扎根中国具体实际,继承中国优秀传统文化和吸收人类社会发展文明成果,在实践创新和时代条件的变化中不断丰富和发展意识形态。主流意识形态引领力建设在我国革命、建设、改
目前,以捷联惯性导航系统(SINS)与全球卫星导航系统(GNSS)为基础的组合导航技术在自主车导航领域得到了广泛应用。但高精度SINS价格昂贵,不适合商业化应用。微机电(MEMS)惯性
近年来,随着经济的发展和社会的进步,移动互联网和语音通讯技术相继成为了人们生活中必不可少的要素,人们更关注工作效率和生活质量的提高,语音对讲以其灵活、方便、快捷的信
第一部分根尖牙乳头干细胞的分离、培养与鉴定以及三碘甲腺原氨酸最佳刺激浓度筛选目的:分离、培养并鉴定根尖牙乳头干细胞(stem cell from apical papilla,SCAPs),制备三碘甲腺原氨酸(T3)条件培养基并筛选最佳刺激浓度。方法:收集根尖未闭合离体恒磨牙,通过酶消化法与组织块贴壁法结合运用,培养原代根尖牙乳头干细胞,传代至p3至p5后用于后续的实验。诱导多向分化实验验证其分化
电动汽车因具有低碳节能、清洁环保等优点,以每年50%的速度增长,预计到2030年,电动汽车将占比汽车总量的50%,一方面由于电动汽车在城际间单次出行距离长、充电次数频繁,用户普遍存在里程焦虑心理,另一方面城际高速路网光储充电站的规划及运营尚处于起步阶段。通过研究电动汽车出行特性,制定光储充电站的定容运行策略,提升电动汽车用户出行的出行体验,协同规划光储充电站内的充电设施,兼顾双方利益,具有重要的理