基于深度学习的服饰图像语义分割方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:zhangqi1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
少数民族服饰作为民族文化特色的载体,在民族传统文化中具有重要地位,研究少数民族服饰图案,对保护和传承民族传统文化有重大意义。由于少数民族服饰图像存在背景复杂程度低,同民族服饰饰品较为相似等情况,利用目前已有的分割网络技术容易出现过拟合,相似物体分割任务难度增加等技术问题,本文从深度学习方法着手,利用卷积神经网络和多层感知机,通过在网络中加入注意力机制以及选择合适的损失函数等技术,提出了一种基于深度学习的少数民族服饰图像语义分割方法,该方法研究其网络模型的改进技术,解决现有民族服饰图像分割方法中存在的相关技术问题,提高网络模型的分割性能,所做主要工作如下:(1)设计了一种基于DeepLabv3+网络的苗族服饰识别Efficient-DeepLabv3+网络。网络训练中利用Mosaic数据增强增加训练时图像的背景复杂度,以提取到更多特征信息;使用标签平滑避免网络因过分相信训练样本标签而产生过拟合;引入辅助分支结构充分利用中间特征层所保留的信息,与主分支损失函数共同计算损失值;利用联合损失函数计算损失值以预防梯度爆炸,使用多级衰减余弦退火算法以找到当前迭代次数的最优学习率。实验结果表明,在苗族服饰数据集上,Efficient-DeepLabv3+网络的平均交并比及类别平均像素准确率分别达到了83.32%、92.54%。(2)对Efficient-DeepLabv3+进行改进,设计了TGMLP-Efficient-DeepLabv3+网络。网络中引入了SE注意力机制,设计了一个高效的TGMLP结构。首先设计了一种TMLP模块,TMLP由三个分别沿着通道、宽和高维度进行编码的分支组成,使TGMLP不仅能沿空间维度捕获特征的长距离依赖关系,且能沿三维方向保持精确的位置信息;其次,设计了Local and Global Perceptron模块,Global Perceptron模块将特征图拆分成不同区域,将每个区域进行相关性建模,以建立不同区域间的全局依赖关系,Local Perceptron模块利用卷积强大的局部特征提取能力,多尺度处理特征图,探索结构内部的上下文信息联系;最后,在TGMLP中引入门控机制,使模型能在不同规模数据集上更容易学习特征图存在的位置偏差;网络利用Focal Loss损失函数调整样本权重,提高网络的分割性能。实验结果表明,在苗族服饰数据集上,TGMLP-Efficient-DeepLabv3+网络能获取全局上下文信息,建立特征之间长期依赖关系,更完整地分割物体,进一步提升了网络分割性能,其平均交并比及类别平均像素准确率分别达到了84.96%、93.7%。
其他文献
近年来移动通信经历了五代的发展,从其发展的历程不难发现,移动通信朝着高频段和大带宽趋势发展,此外,用户对多业务的需求迫使通信标准也在持续增加。在5G这个万物互联的新时代中,射频前端作为与外界通信的重要枢纽,在通信系统中起到重要作用。与传统由多链路组成的兼容多通信标准的射频前端电路相比,能兼容多通信标准的宽带射频前端电路,在小型化和低成本方面具有明显的优势。因此,研究兼容多通信标准的宽带射频前端电路
学位
哈希算法将任意输入长度的消息,经过多轮变换得到一个固定长度的消息摘要值,其在数字签名、数据完整性检验,冗余校验等多方面均有着重要的应用。为了更好地抵抗量子计算攻击,基于大尺寸输入置换的哈希算法应运而生。这些大置换部件通常采用多个非线性密码S盒来构建,因此这些密码S盒的代数性质与哈希算法的安全性息息相关。如何快速评估输入尺寸为16比特及以上的大尺寸密码S盒的代数性质是目前的研究难点之一。进一步地,如
学位
表面等离激元(SPPs)将光波束缚在比其波长小得多的区域,可以突破衍射极限,具有独特的表面局域和近场增强特性,为大规模微结构器件设计提供了一条途径,已成为现代纳米光电领域研究的热点。在众多新颖SPPs现象中,基于等离子体纳米结构的Fano共振凭借其尖锐的非对称光谱线型和对环境介质的高度敏感特性,在纳米光学元件和生物化学传感器等方面的应用具有优势。随着微纳米加工技术的发展,传感器正朝着高灵敏度、检测
学位
哈希学习(又称二进制码编码学习)将高维数据点编码为二进制码,从而有效地利用汉明空间逼近原始的高维度量空间,实现大规模多媒体数据快速检索。实际应用中,通常要求搜索引擎对在线图像流数据进行索引,在线哈希算法应运而生。因此,研究对在线流数据进行哈希编码的在线哈希算法,提高图像检索模型的学习效率和准确率,具有十分重要的科研和工程意义。但到目前为止,在线哈希仍然是一个开放的问题,主要挑战在于很难在模型准确率
学位
与国外公募REITs侧重投资市场化的商业地产相比,我国首批公募REITs主要投向地产属性相对较弱、运营稳定、风险较小的领域,有力助推了基础设施的发展。国企可借助公募REITs盘活优质资产、降低资产负债率、提升运营能力;投资者可在做好相关风险分析的前提下,通过公募REITs实现分散化、稳健化的资产配置。为促进REITs市场更好地发展,未来应在深化公募REITs注册制、增强市场流动性和提高税收优惠方面
期刊
近年来,随着网络的快速发展,互联网上的视频数据越来越多,视频检索算法也遇到了许多新的问题。为了能够高效准确地检索出目标视频,视频哈希算法受到了广泛的关注。然而,大多数现有的监督视频哈希算法基于成对相似性或三元关系设计哈希函数,并专注于局部信息,这导致算法的学习效率较低。本文算法从全局角度出发,使得相似的视频收敛到相同的哈希码,不相似的视频则映射到不同的二值码,以此生成更具判别性的哈希码。本文的主要
学位
图像描述是一项将图像与文本相结合的任务,主要目的是利用计算机自动生成图像对应的描述性语句。在视力缺陷人群辅助系统、信息检索和智能交通等领域有广泛的应用。目前较为成熟的图像描述模型都是采用有监督的方法,这种方法受限于高昂的人工成本,无监督方法的兴起为图像描述提供了一种新的思路。本文借鉴无监督方法的思想,融合深度学习相关技术对图像描述任务进行研究,主要工作如下:第一,提出基于生成对抗方法的快速无监督图
学位
基于Web of Science和中国知网数据库,运用CiteSpace知识图谱可视化方法,分析国内外生态风险评价的研究进展。结果表明:(1)1990—2020年国内外生态风险评价研究文献数量均快速增长,其中国内文献数量增长更快;(2)国内外文献作者及研究机构之间基本形成合作网络体系,中国科学院的发文量在国际位于领先地位;(3)关键词和关键词聚类可视化分析表明生态风险评价研究长期聚焦在水环境、重金
期刊
随着深度学习与计算机视觉技术的发展,图像分类已经在生产生活中得到了广泛的应用。近些年,如垃圾分类、商品识别、人脸支付等AI应用给人们的生活带来了极大的便捷,这些应用的发展得益于海量带标签的图像数据集。然而,数据集标签的质量直接影响了模型的泛化性能和分类精度。因此如何利用这些带有错误标签的图像数据集,设计鲁棒性强、精度高的模型就显得尤为重要。关于带噪声标签图像分类问题,本论文主要研究工作分为以下三点
学位
阿尔茨海默病作为当下发病率较高、影响范围广泛、致病机制复杂的神经退行性疾病之一,在近40年内一直是学术界重点研究的对象。关于阿尔茨海默病关键蛋白β淀粉样蛋白及其前体蛋白(APP),则先后形成了沉积斑块致病假说和寡聚体致病假说。然而近年来随着研究技术的发展,β淀粉样蛋白沉积斑块和β淀粉样蛋白寡聚体之间的关联性的发现,使得两种致病假说的相关性提升。本文综述了近年来国际学术界对于β淀粉样蛋白及其前体蛋白
期刊