标号噪声下鲁棒的距离度量学习及其应用研究

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:hnwkn2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
距离度量学习(度量学习),是最常用的机器学习算法之一,它广泛应用于对象识别,人脸验证和图像检索等问题。常用的度量学习算法通常是学习一个映射函数将数据投影到一个新的度量空间,使其具有某些希望的性质,如:希望属于同类或语义相关性较强的图像在新的度量空间中距离更接近,而不同类及语义相关性较弱的图像之间相互远离。尽管度量学习在大量应用问题上取得了成功,但是现有工作大多基于“数据标号干净”这一假设展开。然而在现实场景特别是使用互联网获取数据时,会遇到很多标注错误的数据。当数据中包含一定量标号噪声时,度量学习通常会受到严重影响:首先是训练难度增加,优化过程需要更多步迭代甚至难以收敛。其次,它会误导训练过程,使得非同类样本被拉近,而同类样本被拉远,最终导致模型精度严重下降。本文工作聚焦于设计鲁棒于标号噪声的度量学习,以解决现实的应用问题;具体地,本文的主要贡献和创新点总结如下:(1)针对标号带噪数据提出了一种有效的数据预处理方法,包括一种无监督的特征提取网络C-SVDDNet和一种基于神经网络的标号去噪算法LDAE。(2)提出了一种基于隐变量的鲁棒于标号噪声的度量学习,在建模中将带噪标号当作观测变量,而将数据的真实标号当作隐变量;同时提出了一种基于EM算法的参数估计方法,将估计隐变量与估计模型参数交替进行。在真实标号已知时模型参数与观测标号条件独立,这样能够有效地降低标号噪声对度量学习的影响。(3)提出了一种新的基于变分贝叶斯的鲁棒度量学习—贝叶斯NCA,它是传统的NCA模型在贝叶斯框架下的扩展。本方法在建模中使用图结构的似然函数,这比以往的基于样本对约束的度量学习能够更好的利用数据的结构信息;同时为了提高优化效率,本方法中还提出了一种定曲率的变分下界,能够大大降低训练复杂度。(4)提出了贝叶斯大间隔度量学习—贝叶斯LMNN,它是传统LMNN模型在贝叶斯框架下的扩展,同时在优化中使用了随机变分法进行参数估计。更重要的是,我们能够从理论上证明此方法对于标号噪声的鲁棒性、泛化性误差和样本复杂度。与标准LMNN模型相比,本方法在理论上能够较小的受到标号噪声的影响同时具有更小的泛化性误差。
其他文献
目的探讨芬吗通(1/10)连续序贯治疗围绝经期综合征的临床效果及对患者血清中性激素和血脂的影响及安全性。方法回顾性分析2014年1月~2016年12月在北京航天总医院妇科门诊治疗
<正>"确实有不少企业把我们和中国国 际金融公司弄混",朱闻琴说,她现在 是国际金融公司中国区的Country Officer,刚刚从泰国曼谷开完国际金融 公司东亚区年会回到北京。"中国
作为一个唯一获得诺贝尔文学奖的黑人女作家,莫里森得奖的理由是她的作品试图回归黑人的文化与传统。黑人性最大的特点就是保护和促进黑人的民族尊严。本文通过分析《宠儿》
现代社会扣公民遇到越来越多的不确定因素的挑战,传统的条块管理的科层制和文牍主冀的官僚制无法面对这样的挑战。各国都必须建立尽量完善的应急管理体系。此文以美国和德国作
<正>2017年7月,笔者作为商务部援外项目后评估工作组的专家在利比里亚、几内亚、科特迪瓦等3国做了20多天的考察,2016年还参加了商务部援津巴布韦农机项目的考察工作。考察工
背景强直性脊柱炎是一种慢性炎症性疾病,在世界范围内流行。四十五年前,强直性脊柱炎的患病率被发现与人类白细胞抗原(HLA)I类表面分子HLA-B27的表达有关,并且超过90%的AS患
<正>昆钢医院(昆明市第四人民医院)在医疗质量管理转型中,凝聚了品管圈等多项管理工具的效力。由三级质控模式建立到品管圈深入医院管理各环节,再到上马"全员、全院、全过程"
区域经济发展水平是区域经济学研究的重要内容,本文选取经济总量、基础设施、对外开放程度、人民生活水平4个系统18个区域经济指标,构建山西省区域经济发展水平评价指标体系
德国奥尔夫音乐教学法是世界三大教育体系之一,在其传入中国教育领域后,对中国的音乐教育行业带来了众多积极有利影响。首先,通过奥尔夫音乐教学法中教育思想的原本性、学生
中华优秀传统文化源远流长,齐鲁文化作为其中一个极为重要的组成部分,迄今仍然绽放着智慧的光芒。齐鲁文化具有极为丰富的文化内涵、极为完整的价值体系、极为强大的生命接续