基于二阶统计量的小样本学习算法研究

来源 :北京联合大学学报 | 被引量 : 0次 | 上传用户:gengfu123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]  为了提高小样本学习的准确率和抗干扰能力,提出了一种基于二阶统计量的小样本学习模型,以CNN最后一层卷积输出的一阶特征向量为输入,通过计算协方差矩阵和二阶池化获得具有较高区分度的二阶统计量,采用奇异值(SVD)分解将二阶特征映射到低维仿射子空间并据此分类。本算法在Omniglot和minilmageNet数据集上进行了测试,实验结果表明,在minilmageNet上的5-way 5-shot模型准确率达到了73.6%,比Prototypical Networks高出5.4%,在Omniglot上的20-way 1-shot模型准确率则获得了2.4%的提升,本算法性能优于Prototypical Networks等算法。在异常值测试中,本算法也展现出比Matching Networks和Prototypical Networks算法更强的鲁棒性。
  [关键词] 小样本学习;协方差矩阵;二阶统计量;低维仿射;SVD分解
  [中图分类号] TP 391.1  [文献标志码] A  [文章编号] 1005-0310(2021)04-0073-06
  Research on  Few-shot Learning Algorithm Based on
  Second-order Statistics
  MA  Yongtian1, QI  Jing2, ZHANG Qiushi 1, LUO Dawei 1, FANG  Jianjun
  (1.College of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China;2.Tourism College,
  Beijing Union University, Beijing 100101, China)
  Abstract:  To improve the accuracy and anti-interference ability of few-shot learning, this paper proposes a few-shot learning model based on second-order statistics. In the model, CNN is used to extract features and its output of the last convolutional layer is obtained to compute high-resolution second-order features by means of covariance matrix and second-order pooling operation. Meanwhile, the obtained second-order features are mapped to low-dimensional affine subspace by operating singular value decomposition (SVD) for classification. The proposed model is tested on Omniglot and minilmageNet datasets. The results reveal that the performance of the proposed model is better than other models including Prototypical Networks. The accuracy of the 5-way 5-shot model on minilmageNet dataset reaches up to 73.6%, which is 5.4% higher than Prototypical Networks. The 20-way 1-shot model on Omniglot dataset gets 2.4% accuracy improvement. As for outlier test, the proposed model also shows stronger robustness than those of Matching Networks and Prototypical Networks.
  Keywords: Few-shot learning;Covariance matrix;Second-order statistics;Low-dimensional affine;Singular value decomposition
  0 引言
  機器学习是一种需要大量数据驱动的科学方法,其相关研究已取得了很大成功。但是,对于小数据集或者弱标注的应用场景,例如缺陷检测、故障检测等,深度学习就显得捉襟见肘。近年来,小样本学习作为一种新的机器学习方法被提出来,成为机器学习研究领域的热点问题之一[1]。
  与一阶统计量相比,二阶统计量能够获得更加丰富的特征表达。文献[2]证明了在大规模目标识别中,使用二阶统计量所表现出的性能要优于使用一阶统计量。文献[3]在动作识别中使用高阶特征量获得更丰富的动作特征及其高阶相关性,更好地区分动作属性,一阶特征则作为噪声而被忽略。文献[4]将二阶统计量拓展到注意力机制中,研究表明二阶统计量可以获得层间特征的内在相关性,这使得网络能够专注于更多的信息特征,增强分类学习能力。文献[5]在词袋模型中分别对一阶、二阶和三阶统计量的性能进行评估,证明高阶统计量具有更丰富的特征表达能力。二阶统计量在语义分割[6]、物体检测[7]及动作识别[8]等计算机视觉领域的研究中都表现出显著的效果。   与常见的一维向量特征相比,协方差二阶矩阵拥有行和列两个方向的数据关联性,比只有一个方向的一维向量特征蕴含更丰富的信息。因此,本文提出在小样本学习模型中采用二阶特征矩阵作为分类依据。在小样本学习的相似匹配部分,一些模型直接将各类别的均值作为它们的原型表示[9],这种策略容易受到异常值的干扰。为了降低噪声干扰,本文采用低维仿射子空间的策略对分类器进行建模。
  1 基于二阶统计量的小样本学习
  图1是本文设计的网络结构,它由特征提取和相似匹配两部分组成。以卷积神经网络(Convolutional Neural Network, CNN)为主干网络,将其最后一层卷积输出的特征图进行协方差计算,获取二阶矩阵特征。在相似匹配部分,将特征映射到低维子空间进行处理,以增强模型的鲁棒性,学习同类图像之间的关系,实现图像分类。
  1.1 特征提取网络
  CNN被广泛应用在计算机视觉研究任务中,并不断取得突破。研究表明,基于CNN的特征提取网络能够较好地提取图像特征,并进行端到端的分类。本文采用图2所示的特征提取网络,它是一个4阶段的CNN网络:将输入图像喂入CNN网络,经过4个卷积块(每个卷积块由核数为64的3×3卷积和一个2×2的Max Pooling组成,每次卷积前都进行BatchNorm处理,采用ReLU激活函数)的下采样处理,输出特征图。
  1.2 二阶统计量
  把CNN的最后一层卷积输出特征展开成一维向量作为输入,通过协方差池获取二阶特征分布,捕获了比一阶更高的特征统计量,这种二阶特征包含层间特征分布及其相关性,具有较强的类别区分能力。基于二阶统计量的特征提取示意图如图3所示。
  令xn∈RD表示图像中的数据点,RD表示图像,D表示图像的维度,则图像经CNN最后一层卷积层输出的特征图可表示为式(1)。
  其中,f(xn)表示CNN特征提取,即RD→RK,K表示特征图的维度。φn表示特征图上的第n个特征向量。N表示输出特征图上特征向量的数量,且满足式(2)。
  1.3 基于低维仿射子空间的分类器
  Softmax凭借其优异的性能被广泛应用于机器学习中。本文拟采用Softmax作为小样本学习的分类器,如式(5)所示。
  式(5)中,c表示support集的样本类别,q表示query集的样本类别。
  由于小样本学习的训练样本数量有限,若用每类样本的特征向量均值作为类原型,使用直接度量计算进行匹配,会对异常点和噪声过于敏感,如图4(a)所示。因此,本文将二阶特征映射到一个低维仿射子空间,然后与原二阶特征做欧氏距离计算来进行匹配,如图4(b)所示。
  其中,Wc表示c类样本的线性子空间,主要是通过奇异值分解(Singular Value Decomposition, SVD)[10]将c类样本的二阶特征矩阵进行分解,左奇异矩阵是原特征矩阵的线性子空间正交基,因此本文将其视为原特征矩阵映射的低维子空间,并借此求得fΘ(q)。
  1.4 算法流程
  令S表示支撑集(support sets),X表示支撑集中的一个图像样本,c1表示类别1,C表示类别数量。M表示查询集(query sets)中每类图像的数量。基于二阶统计量的小样本学习的算法流程如图5所示。
  2 实验
  为了测試基于二阶统计量的小样本学习算法的准确性和鲁棒性,本文在不同的公开图像数据集上对算法进行了对比实验。
  2.1 实验设置
  2.1.1 实验环境
  本文所有实验均在Ubuntu 16.04系统下进行,选择Pytorch深度学习框架,采用Python 3.5语言编译,CPU型号为英特尔i7-9700,GPU型号为GeForce RTX 2080 Ti。
  2.1.2 实验数据集
  为验证基于二阶统计量的小样本学习算法的性能,本文选择Omniglot和minilmageNet两个数据集进行实验[11-12]。
  Omniglot是一个手写字符识别的数据集,是最常用的小样本数据集之一,该数据集包含5 050个字母,共计16 231 623个手写字符。实验将Omniglot数据集中图像的大小调整到28×28并以90度的倍数旋转来增加字符类,训练episode设置为60个类别,每个类别包括5个query查询样本。
  minilmageNet是大型图像数据库lmageNet的简化版,相比于Omniglot,它具有更丰富的图像信息。minilmageNet数据集包含60 000张84×84大小的彩色图像,分为100个类别,每个类别中有600张图像。实验将minilmageNet数据集的100个类别进行了拆分,选择其中的64个类别数据作为训练集,16个类别作为验证集,20个类别作为测试集。
  2.1.3 实验样本
  小样本学习训练集中包含了很多的类别,每个
  类别中有多个样本。在训练阶段,从训练集中随机抽取C种类别,每个类别K个样本(共C×K个)作为支撑集;再从这C种类别剩余的数据中抽取一批(batch)样本作为查询集。
  2.2 实验结果分析
  2.2.1 模型准确率分析
  基于二阶统计量的小样本学习算法与Matching Networks、Prototypical Networks算法在Omniglot数据集上的分类任务的对比实验结果见表1。
  从实验结果可看出,基于二阶统计量的网络(Second-order Networks)通过协方差池获取二阶特征分布,捕获了图像更高维的特征理解,通过在低维仿射子空间进行匹配计算的方法,充分利用了图像的高维特征来扩大类间差异的优点,具有较高的准确率。相比于Prototypical Networks算法,本文算法在20-way 1-shot中的准确率达到了98.4%,获得了2.4%的提升;20-way 5-shot的准确率达到了99.7%,提升了0.8%。但是5-way 1-shot的准确率仅提升了0.5%,5-way 5-shot几乎没有得到提升。据分析认为,Omniglot是一个手写字符数据集,图像相对简单,Prototypical Networks等算法已经达到了一个较高的识别率,因此提升不明显。   为了充分证明Second-order Networks在复杂图像上的分类效果,本文还在minilmageNet数据集上进行了对比实验,实验结果如表2所示。基于二阶统计量的算法在5-way 1-shot和5-shot中的准确率分别达到了52.3%和72.1%,相比于Prototypical Networks算法,分别提升了2.9%和3.9%,说明二阶统计量在复杂图像的分类任务中仍然可以有效提升小样本学习的准确率。
  为了证明加入低维仿射子空间进行匹配计算的有效性,本文还在minilmageNet数据集上进行了直接距离度量和通过仿射子空间进行距离度量的对比实验,如表3所示。从实验结果可知,加入仿射子空间后,模型的准确率在1-shot和5-shot中
  分别获得0.9%和1.5%的提升。这表明,相比利用欧氏距离计算方法的直接距离度量进行匹配,本文通过SVD将图像特征映射到一个子空间,然后求得图像特征间的相关关系并据此进行图像匹配,能
  2.2.2 鲁棒性测试
  深度學习方法的有效性依赖于高质量的训练数据集,当训练集呈现显著复杂噪声、异常点入侵及类别不均衡等问题时,其有效性往往无法得以保证。为评估本文算法对于异常值的鲁棒性,本实验从数据集外随机选取几张图像作为异常值插入支
  持集中,对异常值图像的选取和处理须遵循以下两条规则:异常值的图像数量不得超过标记类别的样本数量;异常值图像不属于支持集中任何类别,但在训练时将其随机标记为支持集的某一类别。
  本文采用5-shot对不同异常值进行测试,并以异常值数量为横轴、模型准确率为纵轴将测试结果可视化,如图6所示。从图6中可看出,随着插入异常值数量的增加,3种算法的准确率均出现了不同程度的下降,这说明3种算法都不可避免会受到异常值的干扰。但从下降幅度可知,本文算法的下降幅度比Matching Networks和Prototypical Networks算法要小,这是由于二阶统计量具有较强的类别区分能力,为分类计算能够提供更多的匹配计算的维度。因此,本文算法对于异常值干扰的鲁棒性方面要强于Matching Networks和Prototypical Networks算法。
  3 结束语
  本文提出在小样本学习算法中引入二阶统计量,基于此方法,可以在深度神经网络学习的表示空间中充分利用每一类支持集中图像的高阶深度特征表示类别,并通过迭代训练,使其在少量样本的情况下获得更好的分类效果。本文提出的方法在Omniglot和minilmageNet数据集上进行测试,其准确率均比Matching Networks和Prototypical Networks等算法要高,在minilmageNet数据集测试中的5-way 5-shot模型准确率达到了73.6%,比Prototypical Networks高出5.4%,在Omniglot数据集测试中的20-way 1-shot模型准确率则获得了2.4%的提升。实验结果表明,通过低维仿射子空间处理方法进一步提高了模型准确率;同时,基于二阶统计量的小样本学习算法具有更好的分类效果,且应对异常值等噪声的能力更强。
  [参考文献]
  [1] 汪荣贵,郑岩,杨娟,等.代表特征网络的小样本学习方法[J].中国图象图形学报, 2019, 24(9):1514-1527.
  [2] LI P H, XIE J T, WANG Q L, et al. Is second-order information helpful for large-scale visual recognition? [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice:IEEE, 2017: 2070-2078.
  [3] CHERIAN A, KONIUSZ P, GOULD S. Higher-order pooling of CNN features via kernel linearization for action recognition[C]// 2017 IEEE Winter Conference on Applications of Computer Vision (WACV). Santa Rosa:IEEE, 2017: 130-138.
  [4] DAI T, CAI J, ZHANG Y B, et al. Second-order attention network for single image super-resolution[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE, 2019: 11065-11074.
  [5] KONIUSZ P, YAN F, GOSSELIN P, et al. Higher-order occurrence pooling for Bags-of-Words: visual concept detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(2): 313-326.
  [6] BAO L C, WU B Y, LIU W, et al. CNN in MRF: video object segmentation via inference in a CNN-based higher-order spatio-temporal MRF[C] //2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City:IEEE, 2018: 5977-5986.   [7] KIM T, JEONG M, KIM S, et al. Diversify and match: a domain adaptive representation learning paradigm for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach:IEEE, 2019: 12456-12465.
  [8] CHOUTAS V, WEINZAEPFEL P, REVAUD J, et al. PoTion: pose motion representation for action recognition[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE, 2018: 7024-7033.
  [9] SNELL J, SWERSKY K, ZEMEL R S, et al. Prototypical networks for few-shot learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach:NIPS, 2017: 4077-4087.
  [10] DADKHAH S, MANAF A A, HORI Y, et al. An effective SVD-based image tampering detection and self-recovery using active watermarking[J]. Signal Processing:Image Communication, 2014, 29(10): 1197-1210.
  [11] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B, et al. The Omniglot challenge: a 3-year progress report[J]. Current Opinion in Behavioral Sciences, 2019,29: 97-104.
  [12] QIAO S Y, LIU C X, SHEN W, et al. Few-shot image recognition by predicting parameters from activations[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Salt Lake City:IEEE, 2018: 7229-7238.
  (責任编辑 白丽媛)
其他文献
[摘 要] 采用问卷形式调查北京市1 348名普通小学教师对注意缺陷多动障碍(ADHD)的认知情况和态度,并分析影响因素。研究发现,教师的ADHD知识总体知晓率为45.07%,城区和郊区教师知晓率差异显著。单因素分析发现,不同地区、教龄、学历、是否师范专业、上学和在职期间是否学习过相关内容在病因(预后)得分上差异显著;不同性别、地区、教龄和学历在特征表现得分上差异显著;不同性别在治疗(教育干预)得
从静/动态空腔膨胀模型的理论体系出发,介绍了空腔膨胀模型在不同方向上取得的成果,主要涉及理想侵彻条件的空腔膨胀压力计算模型及数值模拟方法和空腔膨胀模型在典型侵彻问题及复杂弹靶条件下的应用.在理想侵彻条件下的空腔膨胀压力计算模型中,主要讨论了靶体材料、屈服准则和状态方程对空腔边界应力的影响规律及空腔膨胀模型的适用性问题;根据数值模拟中初始条件的不同,介绍了空腔表面恒定速度/恒定压力两种数值模拟方法,证明了数值模拟方法的可靠性;整理了空腔膨胀模型的基本假设、适用范围、工程应用特点,列举了其在典型侵彻问题及多层
[摘 要] 高铁对城市间劳动力流动格局会产生较大影响,进而对区域就业密度格局产生影响。采用加权平均中心、地理加权回归方法研究高铁对京津冀县域尺度2010—2017年就業密度格局演变的影响,结果发现:高铁的开通显著改变了区域就业密度格局,劳动力从最初向高铁沿线区县集聚,过渡到向地级市或更发达城市集聚,高铁的虹吸作用促使以衡水为中心的就业密度低值区的形成。高铁背景下经济发达、就业待遇更好的地区更容易吸
金属柱壳爆炸膨胀断裂存在拉伸、剪切及拉剪混合等多种断裂模式,目前其物理机制及影响因素还不清晰.本文中采用光滑粒子流体动力学方法(smoothed particle hydrodynamics,SPH)对45钢柱壳在JOB-9003及RHT-901不同装药条件下的外爆实验进行了数值模拟,探讨柱壳在不同装药条件下发生的剪切断裂、拉剪混合断裂模式及其演化过程,模拟结果与实验结果一致.SPH数值模拟结果表明:在爆炸加载阶段,随着冲击波在柱壳内、外壁间来回反射形成二次塑性区,沿柱壳壁厚等效塑性应变演化呈凸形分布,壁
[摘 要] 羡余性被认为是语言的一大本质属性,手语也具有羡余性。与汉语的羡余性相比,中国手语的羡余性主要有三方面的特点,一是兼具时间线条性和空间共时性的呈现特点,二是常常体现出汉语对中国手语的接触影响作用,三是与手语的表义特点有关。在汉语手译时,可利用增译和加注、表情和口动等羡余手段以处理汉语生僻词、新生词和难解词的翻译,以完足语义,减少歧义;还应简省处理汉语的羡余表达,以达到最佳翻译效果;另外,
[摘 要] 教育均衡從强调教育“基本均衡”到追求“优质均衡”,其重要性日益突出,不仅影响到教育本身的公平性,也会影响到未成年人的通学行为选择,最终影响城市空间结构的合理性。利用核密度、最近邻指数分析北京城区中小学、重点中小学及课外辅导机构的空间集聚特征,在此基础上对未成年人的家长进行问卷调查,分析未成年人在参加课内、课外教育时的通学行为与影响因素。结果显示:1)北京城区内重点中小学和课外辅导机构均
近年来,可溶性微针因其优势引起了科学家的广泛关注,但由于可溶性高分子材料快速溶解的特性,较难实现药物的缓控释.笔者提出了一种在可溶性微针针体上包覆一层涂层的方法,以实现对药物释放行为的控制.采用自制的旋涂机在微针针体上包覆一层缓释涂层,以透皮扩散试验探究高分子涂层材料的种类和浓度、旋涂机的转速、包覆的次数等参数对药物释放的影响规律;采用力学强度测试和皮肤穿刺试验考察微针的穿刺行为和效率,最后通过经皮水分流失测试和皮肤恢复情况来评估微针的安全性.通过上述方法,成功制备了可实现缓控释的微针,优选的高分子涂层材
高校教师培训是深化教师队伍建设的重要举措,开展提升教师教学学术能力的培训,探索教师培训模式,有助于提高教师的执教能力和研究能力,促进教师专业化发展.在厘清应用型大学教学学术能力构成的基础上,对应用型大学教师的培训需求进行调研和分析,从而构建需求和问题导向型的教师培训模式,为应用型大学开展教师教学学术能力培训提供参考和借鉴.
教育部《高等学校课程思政建设指导纲要》对工学类专业在“三全育人”背景下开展课程教学提出了全新的要求.北京联合大学智慧城市学院组织深入学习习近平总书记关于教育的重要论述,立足专业特点,开展课程思政建设理论与实践的系列探索.通过“种子工程、苗圃工程和燎原工程”体现理论内涵,通过机制建设形成组织路径,并提出“123”方法体系,实现教师队伍思政建设能力与专业建设能力双提升,是对“守好一段渠、种好责任田”理念的有益尝试.
传统的破片式防空反导战斗部爆炸后产生的破片杀伤元数量虽多,却不能有效击毁来袭的不敏感弹药,存在威力不足问题,因而限制了其发展.周向多线性爆炸成型弹丸(multiple linear explosively-formed projectile,MLEFP)战斗部爆炸后在周向产生多个高速、大质量、大长径比的对折型线性爆炸成型弹丸(linear explosively-formed projectile,LEFP),具备击穿、击爆厚壁壳体不敏感弹药的能力,因此在中近程防空反导作战中具备广阔的应用前景.从线性毁伤