【摘 要】
:
语义分割是计算机视觉中的一个重要课题,被广泛应用于自动驾驶和医学图像分析等不同领域。它为图像中的每个像素点都标记一个语义标签,实现像素级的分类。本文提出了两种改进的语义分割网络,分别应用于二维场景图像和三维脑部MRI图像,即场景解析与MRI分割。论文的主要内容如下:(1)语义分割网络中多阶段的卷积和池化会减小图像尺寸,从而损失位置信息。此外,当图像中的类别数量较多时,语义分割的准确性会降低。针对以
论文部分内容阅读
语义分割是计算机视觉中的一个重要课题,被广泛应用于自动驾驶和医学图像分析等不同领域。它为图像中的每个像素点都标记一个语义标签,实现像素级的分类。本文提出了两种改进的语义分割网络,分别应用于二维场景图像和三维脑部MRI图像,即场景解析与MRI分割。论文的主要内容如下:(1)语义分割网络中多阶段的卷积和池化会减小图像尺寸,从而损失位置信息。此外,当图像中的类别数量较多时,语义分割的准确性会降低。针对以上问题,本文将基于分组卷积和注意力机制的ResNeSt与基于多尺度特征融合的PPM进行结合,形成一种新的语义分割网络。它通过注意力机制提取并融合不同分组卷积中相对重要的特征,减少了下采样过程中图像特征的丢失,从而获得更准确的位置信息。在ADE20K数据集上的实验表明,MIoU达到41.54%,PA达到80.21%。与PSPNet相比,MIoU提升了 0.81%,PA提升了 0.44%。(2)由于三维脑部MRI图像体积较大,每块GPU只能加载1或2个样本,批次数量小容易导致批归一化对数据分布估计不准确,而引起内部协变量偏移。本文使用组归一化代替批归一化来改进3D U-Net,组归一化对通道分组,在通道维度上对每组进行归一化,可以用来解决批次数量小带来的问题。在ADNI数据集上的实验表明,改进后的3D U-Net的平均Dice系数为0.8261,高于原始3D U-Net的0.8151。(3)基于本文提出的两种网络,设计并实现语义分割系统,可对单个或批量的二维场景图像和三维脑部MRI图像进行语义分割。该系统还实现了在线的二维和三维图像叠加查看器,用于以不同混合比例同时展示原图和分割结果图。此外,该系统还包含多个管理模块,方便管理员用户对所有用户、任务、容器、日志进行管理。本文设计、实现并运行了所提出的二维和三维语义分割网络,验证了网络的有效性。随后,将分割程序封装为HTTP服务,并与训练好的模型一起打包成Docker镜像,以便于快速分发与部署。最后,本文实现语义分割系统,使用户可以快速方便地调用二维场景解析和三维MRI分割服务。
其他文献
随着处理器架构的发展,高性能异构多核处理器不断涌现.由于高性能异构多核处理器的设计十分复杂,为了降低设计风险,缩短验证周期,提前进行软件开发,复现硅后问题等,通常需要搭建现场可编程门阵列(field programmable gate array,FPGA)的原型验证平台,并基于FPGA平台开展种类繁多,功能各异的软硬协同验证和调试工作,提出的基于同构FPGA平台对异构多核高性能处理器的FPGA调试、验证方法,有效地利用了异构多核处理器的架构特征,同构FPGA的对称特点,以层次化的方法自顶向下划分FPGA
当前,基于协同过滤和隐因子模型的大学生就业推荐方法,仅考虑学生对就业单位单向偏好易导致“能力失配”,且一个用户一次就业的历史记录极易致负样本不可信,影响推荐性能,同时忽略了对推荐结果的可解释性需求.针对此,依据多任务学习的思路,设计并构建了基于互惠性约束的可解释就业推荐方法.其中,引入注意力机制与模糊门机制,提取并自适应聚合学生与就业单位双向的偏好与需求,缓解“能力失配”问题;提出面向就业意图和就业特征的推荐解释方法,满足可解释性需求;提出基于相似度的随机负采样方法,克服负样本不置信问题.在某高校5届毕业
随着经济和社会的快速发展,国内汽车保有量不断增多,给生态环境保护带来了巨大挑战。出于对环境和能源安全的考虑,越来越多的城市开始构建电动汽车充电站网络。电动汽车依赖于公共充电站提供电量,因此能够准确地预测新城市中充电站的充电需求十分重要,有助于运营策略的制定和新站点的部署工作。由于预测新城市的充电站需求存在冷启动问题,本文使用迁移学习将充电需求知识从具有丰富充电数据的城市迁移到新城市。跨城市充电站需
认知追踪是一种数据驱动的学习主体建模技术,旨在根据学生历史答题数据预测其知识掌握状态或未来答题表现.近年来,在深度学习算法的加持下,深度认知追踪成为当前该领域的研究热点.针对深度认知追踪模型普遍存在黑箱属性,决策过程或结果缺乏可解释性,难以提供学习归因分析、错因追溯等高价值教育服务等问题,提出一种基于多层注意力网络的认知追踪模型.通过挖掘题目之间多维度、深层次的语义关联信息,建立一种包含题目元素、语义和记录等3层注意力的网络结构,利用图注意神经网络和自注意力机制等对题目进行嵌入表示、语义融合和记录检索.特
知识图谱问答是人工智能领域的研究热点之一.在该任务中,自然语言问句结构与知识图谱结构之间的语义匹配是一个具有挑战的研究问题.现有工作主要利用深度学习技术对自然语言问句进行序列化编码,然后与知识图谱予图计算语义匹配,这样做法未充分利用复杂问句的结构信息,方法也缺乏可解释性.针对此问题,提出一种基于图匹配网络的知识图谱复杂问答方法TTQA.首先,通过语法分析方法,构建一个与知识图谱无关的未定查询图.然后,依据未定查询图和给定的知识图谱,构建一个与知识图谱相关的已定查询图,在其中,提出一种图匹配网络GMN,通过
智慧城市需要顺应大数据发展趋势,加快信息化方面建设。城市各级业务部门通常采用传统面向服务(SOA)架构设计完成海量数据交换任务,由于各业务系统采用的数据存储方式不同,随着业务需求增加,数据集规模增大,数据交换压力呈指数上升,对原有的数据服务架构可扩展性、性能稳定方面提出新的挑战。为了支撑智慧城市数据交换系统能够提供高效稳定的服务,避免系统模块间耦合性较高的问题,本文拟设计基于微服务的数据交换和共享
当信息管理系统需要复杂语言以及多语言平行术语等专业特点时,自主研发的科研管理系统除了能完成各种个性化服务外,还有更好的适应和应变能力.文章对具有地方特色的科研信息管理工作进行了探讨,搭建了支持双向多语言文本的综合科研信息管理系统.系统实现了复杂双向文本在浏览器桌面的正确显示和多语言专业术语的智能输入功能,以此全面提升科研信息管理工作时效和质量.
深度学习是当前医疗多变量时序数据分析的主流方法.临床辅助决策关乎病人生命健康,因此深度模型需要抽取患者个性化表示,保证较高的分析、预测准确率;同时还需提供足够的可解释性,即能解释模型给出分析、预测结论的依据.而现有工作暂未能匹配医疗领域多变量时间序列数据的特性来进行个性化表示学习,同时源于深度学习的黑盒性质,现有模型大都可解释性不足,难以满足临床应用的需求.在此背景下,提出了基于医疗特征上下文学习的患者健康状态可解释评估方法Dr.Deep,将各变量的时序特征分别编码,利用多头去协同的自注意力机制,学习不同
近年来互联网技术的快速发展,伴随而来的安全漏洞问题也日益严重,对于安全漏洞管理已然成为国家企业应对安全问题的关注重点。就目前某安全领域的企业来说,企业内部对于安全漏洞管理仍存在一些弊端有待解决:第一,企业员工获取安全漏洞信息需要通过网络查询多个漏洞公开平台,且各个公开网站收录的漏洞信息有来自厂商机构等存在同一数据多网站收录的问题。第二,对于安全领域的企业来说员工发现漏洞信息没有一个一体系化的漏洞申
3D物体检测是计算机视觉的一个重要研究方向,在自动驾驶等领域有着广泛的应用.现有的前沿工作采用端到端的深度学习方法,虽然达到了很好的检测效果但存在着算法复杂度高、计算量大、实时性不够等问题.经过分析发现3D物体检测中的“部分任务”并不适合使用深度学习的方法进行解决,为此提出了一种基于异构方法的3D物体检测方法,该方法在检测过程中同时使用深度学习和传统算法,将检测过程划分为多任务阶段:1)利用深度学习方法从被检测图片中获取被检测物体的mask、物体类别等信息;2)基于mask,利用快速聚类方法从雷达点云空间