【摘 要】
:
深度学习具有卓越的性能,在计算机视觉、自然语言处理、语音识别等领域应用越来越广泛。训练一个高性能的深度学习模型通常需要大量的数据和计算资源,这给模型训练者带来了高昂的成本,因此非法的模型滥用,比如模型盗窃、衍生或再分发等行为严重侵犯了模型所有者的权益,深度学习模型的知识产权必须得到保护。深度神经网络水印技术已经被提出,是目前深度学习领域保护模型知识产权的主要技术。然而,几乎所有已提出的水印方案都只
论文部分内容阅读
深度学习具有卓越的性能,在计算机视觉、自然语言处理、语音识别等领域应用越来越广泛。训练一个高性能的深度学习模型通常需要大量的数据和计算资源,这给模型训练者带来了高昂的成本,因此非法的模型滥用,比如模型盗窃、衍生或再分发等行为严重侵犯了模型所有者的权益,深度学习模型的知识产权必须得到保护。深度神经网络水印技术已经被提出,是目前深度学习领域保护模型知识产权的主要技术。然而,几乎所有已提出的水印方案都只关注图像数据,适用于文本数据的水印方案非常欠缺。其次,现有水印方案难以保证水印的不可探测性,因为这些水印面临着被敌手检测到进而失效的风险。再者,现有水印方案难以识别特定的水印模型,即从多个用户中确定哪个用户滥用了模型。为了解决现阶段神经网络水印面临的这些难题,本文提出了一个新型的深度神经网络水印方案。本文的主要工作和创新如下:(1)提出了一种适用于文本数据的具有反探测和追溯能力的深度神经网络黑盒水印方案。本文从文本数据的角度出发,使用原始未修改的真实文本作为触发集样本,从本质上解决了触发集与训练集样本之间差异较大的问题,保证了水印的不可探测性。其次,本文为每个模型分配一个唯一的序列号,然后在触发集和序列号之间构造映射,从而完成了对特定模型的识别和追踪。再者,本文让触发集和训练集从头一起分批次并按照设定的比例训练模型,降低了触发集损失。对于模型所有权验证,本文使用样本标签分组对比的方法来提取模型嵌入的序列号,从而完成模型所有权验证。(2)分别在2个基准数据集和3个主流的深度神经网络模型上实现了所提出的水印方案,实验结果表明本文所提出的水印方案能够成功验证模型的所有权。本文使用二分类数据集SST-2和多分类数据集AG-News,在Text CNN、Text RNN和BERT等模型上实现了所提出的水印方案。实验表明,嵌入模型的序列号都可以被正确提取到,模型的所有权都可以被成功验证。(3)按照常用的评估指标对本文所提出的水印方案进行了深入评估,实验表明本文水印方案能够满足所有指标。本文基于可行性、保真性、不可探测性、唯一性、鲁棒性以及可扩展性等指标对所提出的水印方案进行了分析。实验结果显示,本文所提出的水印方案成功适用于文本数据,不仅可以为每个水印模型分配唯一的标识,而且水印嵌入对模型性能几乎没有影响。其次,本文水印方案从本质上避免了语法检查、特殊字符检查等技术的检测,也能够抵抗最先进的神经网络文本后门防御技术。再者,本文水印能够抵御常见的模型修改攻击且支持大量用户使用。
其他文献
数字图像处理技术是指在计算机软件或各种硬件处理器平台上进行图像处理的技术。伴随信息时代的跨越式发展,数字图像处理技术及其相关应用深刻影响与变革着人们的生产生活方式,与此同时人们对数字图像处理系统高效性、实时性和高清性的需求也随之水涨船高,仅通过软件平台来实现图像处理算法已经很难满足现实需求,因此在硬件加速平台上设计实现相关图像处理技术成为了目前的研究热点。相比于传统的CPU处理数字图像,FPGA具
图像匹配目的在于处理不同视角或不同手段获取到的两幅甚至多幅图像,并从中识别出结构、纹理、特征等相似的部分,以便于后续对图像进一步处理。然而,受获取图像的设备、时间、角度等因素影响,获取到的图像的光照条件可能存在严重的不一致性,其中图像中欠曝或过曝区域会丢失大量的纹理、结构、和像素值变化信息,导致在这种情况下很难提取到三维空间中属于相同位置的大量特征以确保匹配精度。本文研究了复杂光照条件下如何提升基
随着互联网技术的高速发展,图像数据在种类、数量等方面呈现爆炸性的增长趋势,大规模图像数据推动了深度学习技术在计算机视觉领域的发展。然而,在实际应用中由专家精确标注的数据成本高昂且难以获取,借助自动化工具标注以及“众包”标注的方式逐渐成为获取大规模图像标签的主流,这些低成本的标注方式会不可避免地产生错误标签即噪声标签。在图像分类领域,噪声标签会对分类器产生负面的影响,如降低分类器的预测性能,增加模型
海洋是“资源宝库”,获取高质量的水下图像是开展海洋探索的重要一环。由于水下环境复杂恶劣,受水中悬浮颗粒对光线吸收和散射作用的影响,相机获取的图像质量会严重退化,不仅影响视觉观感,更为后续高级计算机视觉任务的开展带来挑战。因此,开展水下降质图像的复原算法研究很有必要。针对现有算法存在色偏严重、纹理细节丢失、图像模糊等问题,本文提出了端到端的水下图像复原算法。通过设计合适的网络结构和损失函数,制作高质
由于科学技术进步和各国航天事业的蓬勃发展,更多的航天器被送到了太空,但随之产生的空间环境安全问题也不容忽视。更多的空间碎片开始占用有限的轨道资源,不但数量多,且拥有着强大的动力,如果和航天器产生撞击会造成航天器损毁甚至失灵,也会危及航天员的人身安全。空间目标监视对于维护有限的轨道资源,避免发生空间碰撞有着重要的意义。作为监视手段之一的天基光电探测,因其机动灵活的特性在空间目标监视领域有着广泛应用。
大数据时代,在面对海量数据时,常用于传统单机计算模式的数据挖掘算法往往受到存储和计算能力的制约,并行化的计算模式是应对此问题时的有效手段。并行化的计算模式可以将海量数据集分布式存储到集群的各个节点,由各节点对各自存储的数据集进行计算得到局部的结果,再将局部结果整合为最终结果,从而提升运算效率。Spark是一种基于内存计算的分布式计算框架,可以为算法并行化实现提供良好的技术支持。Spark计算框架使
遥感影像匹配就是检测遥感影像间对应的同名点的过程,是遥感影像能够成功应用于众多领域的重要前提。遥感影像中地貌特征众多,纹理信息复杂,不同地形区域具有不同的影像特性。如城市、农田等区域的遥感影像纹理具有重复性,山脉区域影像易产生非线性形变,湖泊区域影像纹理信息较弱等。因此,与其他自然场景的图像匹配相比,遥感影像匹配复杂度更高。目前遥感影像匹配常用的基于特征点的匹配方法并不完全适用于所有场景,匹配精度
随着空间技术的发展,越来越多的航天器涌入太空,空间已经成为各国争夺的宝贵资源。我国的空间站已初具规模,繁重的空间在轨操作任务对空间目标三维重建技术提出了更高的要求。太空特殊的低照度环境为基于图像序列的被动式三维重建技术带来了难题。图像质量以及鲁棒的特征提取与精确匹配是保证后续位姿估计与三维重建质量的重要前提,然而面对暗环境以及复杂光照数据集,目前已有的地面算法仍然存在很多局限性。本文研究空间目标三
随着大数据时代的快速发展,数据的规模、类型、复杂程度高速变化、高速增长使得云计算成为解决数据高效的计算与管理所必不可少的基础性设施。然而,数据在云端进行计算存储在给我们带来巨大便利的同时,也必然会伴随着不可忽视的隐私风险和安全隐患。当企事业单位将其数据外包到公有云上进行存储和计算时,其数据安全可能会受到云服务提供商侧的侵害,比如任何拥有服务器控制权的内部人员,或者在同一云上运行的恶意程序,给用户带
利用遥感卫星影像实现对目标的高精度定位是摄影测量的重要任务。本文针对遥感影像初始RPC参数精度不够、摄影测量定位过程中存在噪声以及遥感测绘领域内当前平差算法求解鲁棒性不高的问题,以经典算法同智能算法有机结合的基本思路,开展了基于神经网络的RPC参数生成方法研究,遥感影像数据的噪声特性描述研究以及基于机器学习的平差算法研究等,提升了光学遥感影像对地定位的精度。论文完成的主要工作和创新点包括:1.本文