数据共享交易场景中的数据和模型标记研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:callingme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网和智能物联网时代下,各行各业在数字化与信息化进程中产生了海量数据,基于海量数据的深度学习模型和算法也在高速迭代发展,数据和模型本身已经初具价值并逐渐成为知识产权。为保护数据共享交易场景下的数据和模型的知识产权,研究人员在诸多方面做出了努力,数据和模型标记工作就是其中重要的基础之一。数据和模型标记是将数据和模型进行技术上的“标记”以抵抗数据共享交易中的对知识产权有威胁的部分不合规行为(复制、修改、盗窃、非法控制等),这种“标记”不仅包括嵌入或者提取一些标识序列和特征向量,比如数字水印、哈希签名,也可以是一个对于特定场景下数据和模型针对性的保护知识产权的流程或者机制,比如数字版权管理、一套完整的深度模型加解密执行机制。本文着重关注数据指纹和模型控制机制这两类的“标记”,分别从硬件指纹、内容指纹和模型参数保护三个方面进行“标记”研究。当前移动设备运动传感器数据硬件指纹研究缺乏对于硬件指纹容量理论上的理解,并且针对在真实生活中数据进行更高精度的指纹识别需要进一步研究;对于数据内容指纹当前缺乏一个在大规模数据情况下由统一的编程接口实现的内容指纹生成和检索系统;对于模型参数保护,当前大部分工作都是在模型被窃取或者侵权后的被动维权,在主动保护模型参数角度如何兼顾安全性和效率是一个重要挑战。在数据硬件指纹方面,(1)本文提出了一个基于球桶模型的数学模型来建模具有多维特征的传感器数据硬件指纹容量,研究了设备的传感器数据在多维度下的特征分布、可以区分的粒度的数量和设备的数量三个角度对指纹容量的不同影响,并利用大量真实的移动设备数据分析/验证理论的容量模型。(2)本文提出了一个基于长短时记忆神经网络的有效的自动捕获设备硬件指纹的方法,与传统特征工程方法、基于卷积的深度神经网络方法相比,在广泛大量的数据集上本文的指纹方法都得到了更好识别准确率,并且更加稳健鲁棒。(3)本文还提出了一种新颖的基于生成网络模型的方法来匿名化传感器数据,将传感器数据在发布前进行预处理以抵御传感器指纹攻击,在保持良好的数据效用的同时,尽量降低预处理时延以满足实时数据发布的需求。在数据内容指纹系统方面,本文中领先性地设计并搭建了集成文本、图片、视频、表格数据模态的数据内容指纹提取和基于数据内容指纹的大规模检索的系统。系统中实现的方法在修改前后数据内容指纹相似程度均在70%以上,指纹检索准确率均在90%以上,生成耗时均在200毫秒以内,特别地,对于表格模态数据实现了生成效率和指纹准确率的较好权衡,百万级数据规模下检索耗时均在2毫秒以内。在保护模型参数数据方面,在服务提供商将机器学习模型迁移到边缘计算设备上执行的服务场景下,(1)本文提出生成一个对模型参数部分修改的安全版本机器学习模型的方案并将安全版本模型部署到边缘计算设备上,安全版本模型的设计是基于实验观察到当修改一小部分模型参数后模型性能将严重下降的现象,这使得安全版本模型的精度与随机猜测的效果相近并且攻击者很难推断出哪些参数是经过修改的。(2)为得到正确的推理结果还需要将修改的部分参数校正回来,本文提出了结合可信执行环境的校正方案,使得满足最小化在边缘设备可信执行环境中运行的机器学习推理结构计算规模的要求,经过在CIFAR10/100和ImageNet在内的真实数据集上推理和评估,与当前最新技术相比,本文的方法在执行效率上有很大提升,同时在内存使用上有大量减少。
其他文献
自从1954年George Devol发明第一台可编程机器人以来,机器人已经陪伴人类走过半个多世纪,并逐渐成为人类生产生活中不可或缺的助手。为了让机器人具有与人类相当的分析与操作能力,其中关键的一个步骤是使机器人能够精确地感知并重建其周围的三维物体与三维场景。尽管已经涌现了不少成熟稳定的三维扫描与实时重建算法,但是现有的三维重建算法往往以人类用户手持扫描设备为主要应用场景。如何用机器人代替人类自动
温湿廓线是研究青藏高原对流、潜热,揭示高原能量收支的重要基础数据。作为地球能量收支的重要参量,青藏高原的温度、湿度和对流层顶分布情况一直令人关注的科学问题。但是由于青藏高原环境恶劣,气象观测历史短,探空站点分布稀少,青藏高原的温湿廓线全面系统的研究一直进度缓慢。穿透性对流活动对对流层和平流层的热力结构和湿度分布有重要影响。目前,由于高时空分辨率温湿数据的缺乏,我们对青藏高原穿透性对流活动特点及其对
中国高速铁路的发展举世瞩目,极大地便利了人们的出行,列车速度的不断提高,也对转向架系统的直线稳定性和曲线通过性提出了更高的要求。列车转向架一方面需要较大的定位刚度来抑制高速行驶时的蛇形运动,另一方面在经过曲线轨道时又需要较软的定位刚度来适应曲率变化。传统的转向架系统难以满足这种矛盾的定位刚度需求,往往采用折中的定位刚度设计来兼顾直线稳定性和曲线通过性,一定程度上限制了列车运行速度和动力学性能的进一
量子纠缠是量子世界最显著的特征,最早以“鬼魅的超距作用”进入人们的视线,引起了关于“实在性”、“局域性”和“量子力学完备性”的激烈争论,而后随着Bell不等式的提出,量子力学的完备性才得以进一步验证。经过全世界物理工作者近百年的努力,量子纠缠的研究内容从理论到实验愈发丰富,使得量子纠缠成为量子计算、量子通信、量子精密测量、量子模拟等量子信息学应用的核心。然而,量子纠缠仍然存在着很多重要却未解决的问
台风特指生成于西北太平洋热带洋面、中心附近最大持续风速大于64kts的热带气旋(TC)。台风-海洋相互作用在近几十年来越来越受到关注。一方面,台风会对其路径附近的上层海洋生态环境产生重要影响,包括海洋温盐变化,海洋叶绿素浓度增长等等;其中,海表热通量、垂直混合夹卷、上升流导致的冷尾流现象最为显著。另一方面,海洋环境包括海表温度、海洋涡旋等要素是影响台风生成和发展的关键因素。过去几十年来,热带气旋强
近年来,为了解决城市化带来的日益严重的城市道路交通拥堵问题,地铁系统在我国各大城市得到了广泛建设。然而,地铁系统结构复杂、地下空间狭长且封闭、人员密度大,导致地铁火灾可能会发展成重大伤亡事故。目前,前人关于地铁火灾的研究大都是针对隧道火灾开展的。而在实际情况中,地铁列车可能因火灾事故导致动力系统故障而停靠在区间隧道内,乘客通过一侧开启的车门和纵向疏散平台向安全区疏散。此时,两端开口区间隧道同单侧多
俯冲带镁铁质-长英质岩浆岩通常记录了俯冲地壳物质的再循环和再造,是研究俯冲带壳幔相互作用和构造演化的重要载体。祁连造山带经历了早古生代柴达木地块-祁连地块-阿拉善地块的聚合,记录了从大洋俯冲到大陆碰撞的一系列过程,是研究俯冲带物质循环和壳幔相互作用的理想区域。祁连地块出露大量不同岩性的早古生代弧岩浆岩,为识别不同性质俯冲地壳物质再造和再循环以及恢复造山带构造演化历史提供了很好的研究对象。本学位论文
在森林火灾和建筑火灾的可燃物中,生物质占有很大的比重。因而,生物质燃烧在火灾领域受到了广泛的关注。要从本质上认识、预测和预防燃烧,就需要对其化学反应机理展开详细的研究。在火灾蔓延过程中,未燃区受到加热,生物质发生热解。之后,热解释放的可燃气体发生氧化,当OH自由基的浓度积累到一定程度时,发生点火现象。生物质的热解和点火在燃烧过程中持续存在。生物质主要由半纤维素、纤维素和木质素三大组分组成。综纤维素
火旋风是一种典型的森林和城市极端火行为。它是由浮力火羽流与周围旋转流场耦合作用诱发的旋转扩散火焰。与普通浮力火焰相比,火旋风具有更大的燃烧速率,火焰高度,火焰温度和流动速度。此外,火旋风会诱发远距离飞火,造成火灾的非连续性蔓延。因此,火旋风是大尺度火灾形成的重要机制,也是火蔓延加速的关键原因。深刻揭示火旋风的燃烧动力学机制与规律,能够为发展森林和城市火灾防控技术提供科学依据。热释放速率(火源强度)
近年来发展起来的二维材料家族种类众多、性质丰富,在未来微电子器件等领域具有巨大的应用前景。与传统三维材料相比,除了维度效应带来的各种新奇物性,二维材料的一个显著特点是其便于多层异质堆叠,层间通过较弱的范德华相互作用连接而不形成强的化学键。这不仅有利于将具有不同性质的二维材料相互堆叠组合成具有新的性质的异质结,同时还可以对二维多层体系通过施加垂直于二维面的应力、电场,或者通过层间滑移等方式改变层间相