【摘 要】
:
随着计算机算力的提升、存储技术的发展以及互联网的普及,机器学习模型越来越多地受到人们的关注。大量的研究成果已经在现实生活中为我们带来了便捷。作为一项数据驱动的技术,机器学习模型可以有效地挖掘海量数据背后潜在的关系。数据质量的好坏对模型最终的性能起到了根本的、决定性的作用。但是用来训练模型的数据有的直接从外部环境中搜集整理而来,比如直接来自互联网上的用户。这样就给攻击者提供了攻击机器学习模型训练数据
论文部分内容阅读
随着计算机算力的提升、存储技术的发展以及互联网的普及,机器学习模型越来越多地受到人们的关注。大量的研究成果已经在现实生活中为我们带来了便捷。作为一项数据驱动的技术,机器学习模型可以有效地挖掘海量数据背后潜在的关系。数据质量的好坏对模型最终的性能起到了根本的、决定性的作用。但是用来训练模型的数据有的直接从外部环境中搜集整理而来,比如直接来自互联网上的用户。这样就给攻击者提供了攻击机器学习模型训练数据集的可能。攻击者首先生成恶意的数据,再将其注入模型的训练数据集中使得经过训练的模型性能下降或者做出符合攻击者意愿的预测结果。数据污染攻击对模型构成了极大的威胁。研究一个模型在遭受数据污染攻击时的表现有助于我们衡量这个模型的可靠程度。本文中我们研究在推荐系统领域广泛应用的多视图张量分解机模型,探究针对该模型的数据污染攻击算法,观察使用攻击算法生成的污染数据训练后的模型性能的变化情况。在推荐系统领域,人们可以获取到的数据多种多样,比如用户画像、商品的信息等。多视图张量分解机模型可以很好地处理这类类型多样的数据。本文中我们介绍目前常见的几种多视图分解机模型,归纳总结这几种模型的特点。随后我们提出一种更加泛化的多视图张量分解机模型的表达形式,通过添加特殊的限制条件,可以将此模型转化为常见的几种模型。我们针对一般化的模型设计数据污染攻击的算法,这样可以使得攻击算法更具泛化能力。考虑到数据污染攻击实际上是一个对抗博弈的过程:攻击者希望通过注入污染数据使得模型的性能受到影响;防御者希望尽可能地过滤污染数据使得模型获得良好的性能。我们对这个博弈过程进行建模,将其描述为一个双层优化的问题。由于该问题是NP-hard,所以我们用迭代式的方式寻找近似解。在每轮迭代中,我们计算模型在测试集上的损失函数对于污染数据的梯度,随后利用梯度上升的方式更新污染数据。更新的污染数据会被再次注入模型的训练集。考虑到实际中防御策略的存在,位于防御策略定义的数据可行域之外的污染样本会被投影至数据可行域范围内。我们选择两个真实在线网站的数据集:Movie Lens影评数据集和亚马逊分类商品评价数据集来设计实验。通过实验我们验证了本文提出的数据污染攻击算法的有效性。
其他文献
板坯叠轧是目前国内外生产复合板的一种新的制造工艺,具有板材质量高、组织均匀、性能稳定等多种优点,在核电、石油化工、输送管道等领域具有广泛的应用前景。常规情况下采用的大坡口手工电弧焊焊接效率低,人为因素影响大,焊接质量不稳定。因此,采用机器人自动焊接是组坯成形技术规模化应用的必然趋势,而横向窄间隙坡口的多层多道焊道规划是其中一项非常重要的关键技术,目前主要存在以下几个问题:(1)缺乏基体金属支撑造成
全景视频作为传统视频与虚拟现实的结合产物,近年来获得了学术界和产业界的广泛关注。由于全景视频中包含了整个空间场景的画面,其数据量将远高于传统视频,这给全景视频的传输和分发提出了新的挑战。一些研究者针对一对一的全景视频传输场景提出了视区自适应传输模型。这类模型将根据用户的观看视角对全景视频画面的不同区域进行选择性传输,从而降低了全景视频传输的网络带宽需求。然而,对于多个用户的全景视频传输场景,现有的
随着深度卷积神经网络(DNN)在各种计算机视觉任务中的成功应用,人们希望通过设计出更深或更广的网络结构,来超越已有的经典方法,获得更佳的应用效果。绝大部分流行已久的经典卷积网络,都需要依赖数十兆字节的权重存储和数十亿次的浮点运算,才能进行一次前向推理,这使得它们难以广泛部署在资源受限的边缘设备上(例如手机、摄像头等)。量化被认为是满足终端设备对内存苛刻要求的最有效方法之一。然而,大多数量化方法将相
随着近二十年来互联网技术的不断发展,网络攻击的数量不断增长,种类也日益繁多。在近些年来,作为互联网的重要接入点--网页(Web)应用在安全性方面也面临着越来越严峻的挑战。同时,作为机器学习的一个子类--深度学习在最近十年中也有了跨越式的发展。深度学习的方法被广泛应用在Web攻击的检测中。然而这些研究仅仅将关注点放在了如何使用深度学习的方法提高在特定数据集上的检测准确率,而没有深入探究Web应用中产
三维数据有着广泛的应用,比如自动驾驶、机器人、游戏等。和一维信号与二维图像相比,三维数据往往缺乏规则的空间结构并且对旋转鲁棒性有着更高的要求。近年来许多研究这从以上两点出发设计了适合三维数据的深度学习方法,极大地提高了三维数据分析的性能。三维旋转是一种重要的三维数据表达形式,可以更直接地表达三维空间中的相对关系,例如人体骨架关节的旋转,物体在三维空间中的姿态等。相比于点云数据,三维旋转有着独特的群
通道剪枝在卷积神经网络加速中有着广泛的应用,但如今已经遇到了瓶颈,主要源于两处挑战:1)对冗余性准确而直观的测量;2)模型卷积层之间的依赖性使得冗余性动态变化,如何对此建模。为此,本文首先引入了dropout技术,其中包含一个dropout rate的参数,表达了在训练中丢弃通道的概率。考虑到传统dropout难以优化,本文推导出了高斯dropout,使得dropout rate可以在贝叶斯框架下
随着无线通信技术的发展,无线设备的数量也在急剧增加。第五代移动通信技术采用认知无线电技术和新的多址接入技术等方法来提升无线系统的频谱利用效率。然而,射频干扰攻击会对通信系统的可用性造成严重破坏。干扰器通过发射非法信号,可以阻止合法节点接入通信网络,也可以干扰进行中的通信,降低节点的通信速率。如何在新的通信环境下防御射频干扰攻击就成为了一个亟须解决的课题。以Q-learning为代表的强化学习算法具
为了应对近年来深度卷积神经网络(CNNs)对于计算和存储需求的快速增长,研究人员提出了多种方法来实现模型压缩与加速,其中包括低秩分解,网络剪枝,权重量化,神经网络结构搜索和知识蒸馏等。在上述方法中,基于网络剪枝的算法通常能够在易用性和压缩加速性能之间取得良好的折中,因此格外受研究人员青睐。尽管现有的网络剪枝算法在一些特定的深度学习任务上展现出了不俗的压缩加速性能,这些算法在更广泛的实际应用场景中或
目标物体的位姿识别和各种场景下的运动规划问题是非结构化环境下机器人作业的关键技术。一方面,现有位姿识别算法中,基于模板搜索匹配或者基于迭代的算法速度较慢,基于神经网络的算法往往模型体积较大,意味着更大的存储需求和计算量。而嵌入式的机器人系统往往存储和计算能力受限,但有实时性及精度需求。另一方面,机器人系统中往往存在多场景的运动规划问题,包括高维问题。因此,使用的运动规划算法需要便于泛化、适用于高维
工件装配是智能制造领域中不可缺少的组成部分,如今小批量与多样化的生产模式对装配工作的快速性、准确性以及灵活性均提出了更高的要求。与传统方式相比,基于协作机器人的智能化装配在保证产品质量的同时,能够最大限度地提高生产过程的柔性与效率。国内外对于智能装配技术的研究主要集中在工件的识别与定位问题上。本文以包含平面特征的无纹理工业零件为研究对象,以复杂背景下工件识别与高性能位姿估计为研究切入点,提出将堆叠