面向多标记/多模态数据的主动学习研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:jsww2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统有监督学习问题中,若要得到性能较好的模型,往往需要在大量已标记样本上进行训练学习。但在很多实际任务中,特别是处理多标记、多模态等复杂数据时,样本标注十分困难,代价昂贵。因此,如何利用尽可能少的标记数据训练出有效模型是一个重要的研究问题。主动学习是有效解决这一问题的主要途径,它通过主动选择部分最有价值的样本向用户查询其标记,从而用较少的代价提升模型性能。本文结合主动学习技术分别针对多标记、多模态复杂数据在训练建模时标记数据匮乏的问题开展了研究,由此取得了如下成果:1.提出一种结合模型引导的分布匹配多标记主动学习算法MADM。该算法通过匹配未标记数据和已标记数据的分布,发掘特征、标记两方面均最具代表性、差异性的监督信息。同时,利用模型的预测得分动态引导分布的匹配,使算法倾向于更有查询价值的潜在正样本。实验证实MADM能显著减小多标记样本的标注代价。2.提出一种查询细粒度监督信息的多示例多标记主动学习算法MIML-AL。该算法针对多示例多标记对象提出一个特定的查询方式,在不增加用户标注代价的前提下获取更为精细的监督信息。同时,通过联合考虑输入、输出空间的差异性和不确定性,使查询的监督信息最有价值。实验证明MIML-AL能在同等标注代价下获得更大的性能提升。3.提出一种结合主动查询的跨模态相似度学习算法COSLAQ。该算法充分利用模态内和模态间不同相似性度量的不一致度,发掘对模型性能提升最具价值的监督信息。同时,通过结合模型的不确定性以有效避免离群点的干扰。实验验证显示出COSLAQ的有效性。
其他文献
随着科学技术的日新月异,计算机系统已经深入了我们的生活中。分析当前国内外的环境,某些特殊领域需要高可靠性的系统,高可靠性体现在数据容错处理,容错处理等方面,典型应用
本文重点研究了图像匹配技术和图像比对技术在基于台标比对的视频监控系统中的应用,探讨了如何利用图像匹配技术和图像比对技术提高电视节目质量监控的准确性和灵活性,以及降低
随着Internet相关技术的发展,互联网上进行传送、交换的数据量呈指数增长,对网络服务器的提出了更高的要求。而集群系统具有的高可靠性、高性能性正好能够较好地满足网络应用所
移动计算最大的贡献便是使得服务个性化,在传统的C/S模型中,服务器提供的是预先设置好的一系列服务,并且通过静态的接口定义实现。但这通常会出现预先设置的服务并不适合一些
随着企业信息化程度的不断提高,企业应用集成已成为计算机技术在企业应用中的主要问题,但现有的应用集成技术普遍存在耦合程度高、灵活性低和非自主性等缺点,已不能满足企业
防火墙技术是建立在现在通信网络技术和信息安全技术基础上的应用性安全技术,它越来越多地应用于专用网络与公共网络的互联环境中,尤其以Internet网络为最甚。防火墙的出现,
本文以运动人体行为作为主要研究对象,以行为识别方法为研究内容。通过“时空兴趣点”获得极具价值的行为底层特征信息,通过“视觉词袋模型”得到行为特征的人体行为知识词典
基于位置的服务通过特定的定位技术,获得移动终端的地理位置信息,提供给移动用户本人、通信系统或第三方,为移动用户提供与其位置相关的丰富多彩的应用。在这种应用中,移动终端的
综合孔径成像技术是通过求出观测源对应的相干度,然后再进行傅里叶逆变换的方法来重构被观察源的像即强度分布。在实际应用中需要处理异常多的观测数据,其巨大的计算量往往成为
本文从计算机技术应用于企业管理的角度出发,在阐述了供应链管理SCM基本原理的基础上,针对现代企业采购生产销售一体化管理系统信息共享和集成化的趋势,探讨了集成上下游供应