有限训练样本条件下的分类器构建与应用

来源 :北京科技大学 | 被引量 : 3次 | 上传用户:liuhongbin0321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据驱动下的分类器构建方法受限于训练样本的数量和质量。近年来,随着传感器技术、互联网技术、高性能计算技术的发展,在生产和生活中积累了大量的数据。这些数据可被用于训练更为复杂的分类器模型,从而极大推动人工智能技术、机器学习技术的发展。然而,针对特定的应用领域(如遥感图像解译、矿山安全分析)与更为复杂的模式识别问题(如细粒度分类、多标签分类、图像语义分割等),获取大规模、高质量数据的成本十分高昂,对原始数据进行采集、清洗与标注是繁重、繁琐的工作。这一问题制约了分类器模型在不同场景中的构建与应用推广。本文面向国土空间规划与自然资源利用,构建了3种分类器模型,并分别将其应用于细粒度遥感图像分类、多标签遥感图像分类与矿山安全等级分类中。这些分类器的设计与构建,在当前我国将矿产、林业等自然资源的经营管理工作与土地利用、土地整治等国土资源的规划管理工作纳入统一规划体系的大背景下,具有尤为重要的价值。本文中的“有限训练样本”指在具体应用中,数量不多、质量不佳的训练样本集,可以有图片、结构化表格等多种数据形式。该条件下的分类器构建,一方面指通过迁移学习、对抗学习等策略,赋予深度神经网络处理有限样本的能力;另一方面指采用经典统计学习模型,对经过加工的数量有限的样本进行可靠分析与处理。本文的主要研究内容及创新点包括以下几个方面。(1)针对细粒度图像分类中存在的标注困难、局部特征不易提取等问题,提出一种带有注意力机制的层次化多对抗网络模型AMAN(Attentional Multi-Adversarial Networks),并将其应用于由粗到细的递进式遥感图像解译中。AMAN充分利用了源域中已有的粗粒度(大类类别)标签抽取特征,进而在目标域中针对每个子类仅标注少量样本用于对抗训练,选取注意力区域,实现粗粒度特征到细粒度特征的增强与对齐。实验结果统计与可视化分析表明,AMAN可有效强化源域中有价值的特征,并将其应用于目标域中的细粒度分类问题。在3个细粒度图像分类基准数据集上的测试实验表明,AMAN成功地解决了训练集不完整情况下的细粒度分类问题,仅需完整训练集中20%左右的训练样本,即可取得优于近五年主流细粒度分类算法的分类精度。(2)针对多标签图像分类中存在的标签复杂、对象级视觉特征不易提取、标签关联性利用不充分等问题,提出一种基于跨模态表示学习与标签图挖掘的残差多注意力 CNN-LSTM 网络模型 CM-GM(Cross-Modal Representation Learning and Label Graph Mining based Residual Multi-Attentional CNN-LSTM),并将其应用于遥感图像解译中。CM-GM一方面采用文本模态表示和标签图挖掘对图像标签进行特征表示学习,在标签向量中尽可能多地融入语义信息,充分利用标签依赖关系。另一方面,针对图像特征表示,在卷积神经网络(Convolutional Neural Network,CNN)结构中引入逐通道的注意力机制,有针对性地在多标签图像中自适应抽取对象级特征。在此基础上,通过跨模态对齐策略,将对象级的图像特征与对应的类别标签表示进行对齐,用标签语义指导图像特征表示。这些经过对齐的对象级图像特征被逐个提供给长短时记忆网络(Long Short Term Memory,LSTM)进行训练。由于充分利用了文本表示与标签间的依赖关系,CM-GM仅采用多标签图片中的部分标签(约60%的标签量)对LSTM进行训练,也可以取得与主流多标签分类算法接近的分类效果。这一优势在标签数量多、标签关系复杂的数据集中更加突出。(3)提出一种基于蜂群参数优化的最小二乘支持向量机模型,并将其应用于矿山安全评级与分析。针对结合专家分析与传感器采样等方式构建的煤矿风险等级数据集,采用最小二乘支持向量机对数据进行分类。为自适应优化最小二乘支持向量机的超参数,提出一种改进的人工蜂群算法,通过优化引领蜂、跟随蜂的位置更新公式,提高算法收敛性能。仿真结果表明,基于改进蜂群算法参数优化的最小二乘支持向量机模型在小种群情况下可对煤矿安全等级进行准确分类。另一方面,针对矿山生产边坡环境,为更好地获取边坡图像数据,提出一种用旅行商问题拟合无人机航拍任务,进而采用蚁群算法进行无人机航迹规划的求解策略。相较于人工遥控,该策略可减少无人机飞行距离,并在有限的无人机飞行时长内获取数量更多的高质量航拍图片。
其他文献
笔者介绍了霍兰德职业类型论的主要思想、六大职业类型以及测量霍兰德职业类型的常用方法,包括SDS量表以及非正式评估,并且描述了SDS量表的三个主要指标,包括一致性、分化性
[研究背景及目的]动脉粥样硬化(atherosclerosis,AS)引起的心血管疾病(cardiovascular diseases,CVD)是全球居民疾病死亡的首要原因。炎症反应和细胞死亡在动脉粥样硬化的发
中国“一带一路”是中国政府在新时代提出的一个发展倡议,主要包括“21世纪海上丝绸之路”和“新丝绸之路经济带”两个部分。这一发展倡议涉及到了沿线的超过60个国家和地区,沟通了亚欧多个经济发展区域,其中欧洲是中国非常重视的经贸合作的地区,在“一带一路”发展倡议中也占据重要的位置。中东欧地区是中国与欧洲陆上贸易的门户,地理位置优越,因此也是中国与欧洲贸易往来优先考虑的地区。中国与中东欧国家的贸易中,农产
试验旨在探索优化超排方案,提高肉羊胚胎生产效率。在新疆哈密市牧祥合作社用FSH+PG递减4 d 8针注射法处理供体羊44只,冲胚数503枚、只均冲胚数11.43枚±0.79枚,可用胚数394
目前,国内外汽车模具制造行业基本上都开始应用CAD/CAM技术,并且通过高科技的数控机床进行汽车零部件模具的生成工作。这样的做法极大的缩短了模具的生成周期以及开发周期,也
<正>随着"低碳经济"的迅速兴起,与之相关的新型金融——碳金融也得到迅速发展。碳金融是指服务于控制温室气体排放的相关金融活动,主要包括温室气体的排放权及衍生品的交易和
在所有权与控制权分离的条件下,企业经营者的行为对于企业的生存与发展起着重要甚至决定性的作用。我国一些企业正是由于企业经营者的行为偏差而陷入困境。本文在分析了企业经
自改革开放以来,我国农业、工业、服务业三大产业迅速发展,经济水平快速提升,但与此同时,环境保护问题也日益突出,逐渐成为制约我国经济可持续发展的重要因素。近几年来,随着
首先介绍全球定位系统(GPS)的基本工作原理及其通常所采用的通信协议,然后阐述了基于LabView的GPS串口数据采集及处理程序的设计思路和主要功能,最后程序实现了对GPS定位信息
近年来,随着我国农村经济迅猛发展,农民人均纯收入逐年攀升,农民生活水平不断提高。但是,由于农村治理污染的基础设施不足,污染源复杂多样、农民环保意识低、农民参与积极性