面向文本分类神经网络的对抗样本生成研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:x111678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络在自然语言处理领域落地应用,已经取得许多重要研究成果,文本分类模型作为自然语言处理模型的分支,在垃圾邮件检测、情感分析和新闻分类等任务中发挥着重要作用。作为文本分类领域的主流模型,循环神经网络适用于序列数据,综合考虑上下文信息对文本进行分类;文本图卷积网络将单词与语句的关联度抽象为拓扑图,具有较高的文本分类准确率。最新研究表明,对抗攻击会使文本分类模型失效,且攻击成功率较高。这已成为文本分类模型的潜在威胁,严重限制了模型的进一步应用。利用对抗样本对模型进行对抗训练,可以提高模型鲁棒性,抵御对抗攻击。因此,研究文本对抗样本生成问题尤为重要。生成对抗样本,需要在输入数据中添加扰动。但即使微小扰动仍容易被人类察觉,同时原始文本的语义可能会改变。因此攻击成功且保留原始语义的对抗样本,可视为有效对抗样本。对于循环神经网络,学术界已经提出大量对抗样本生成算法,但仍存在攻击成功率低、生成的对抗样本可用性低等问题。对于文本图卷积网络,对抗攻击研究仍处于起步阶段,需要提出新的对抗样本生成算法。本文围绕以上两种文本分类模型,展开对抗样本生成研究,提出三种对抗攻击算法,主要工作如下:1.PGD算法是图像领域的最优一阶对抗攻击算法,该算法不仅有较高攻击成功率,而且保证对抗样本与原始样本范数距离较近。本文将PGD算法迁移到文本领域,为循环神经网络生成对抗样本。然而,PGD算法会扰动文本中所有单词,破坏语义和语法完整性。为保证扰动不可察觉,原始语义不被改变,本文提出Extend-PGD算法,仅修改原始文本中部分的单词。该方法首先计算模型对输入单词的Jacobian矩阵,得到每个单词对分类结果的影响程度并排序,依次利用PGD算法为单词生成扰动,当且仅当扰动后的单词保留原始语义时,修改原始单词,重复扰动过程直至扰动成功或者迭代结束。本文设计对比实验,证明利用上述扰动方式,生成的对抗样本具有较高的攻击成功率,并且与原始文本语义相似。2.C&W算法是图像领域中基于优化的对抗攻击算法,该算法不仅攻击成功率高,而且生成的对抗扰动非常小。本文将其迁移到文本领域,扰动循环神经网络。但是,C&W算法生成密集扰动,可能改变原始文本语义。本文引入(?)1正则化提高扰动的稀疏性,提出Extend-C&W算法,最小化对原始输入文本的改变。该方法通过求解优化问题生成对抗扰动,每次攻击后,计算与被修改单词语义最相近的三个单词,作为候选集,如果扰动后的单词不在候选集中,将其替换为候选集中与之语义最相近的单词,重复扰动过程直至迭代结束。Extend-C&W算法生成的对抗样本最大程度保留了原始语义,提高对抗样本的可用性。3.FGA算法是图数据领域中基于梯度的对抗攻击算法。该算法针对普通图,快速生成对抗扰动,并且有较高的攻击成功率。文本图卷积网络基于文本图进行训练,该图是有权图。因此本文将FGA算法扩展至文本图,提出Graphattack攻击算法,为文本图卷积神经网络生成对抗样本。Graph-attack算法同时扰动文本图中的节点特征和边,利用梯度修改节点的部分特征;基于FGA算法的核心思想,修改边的权重。根据不同的扰动方式,采取相应的扰动限制策略,保证生成的对抗样本的有效性。本文通过对比实验,证明Graph-attack方法可以有效降低模型准确率。
其他文献
TiO2是一种众所周知的能够有效净化染料废水的光催化剂,但较差的太阳光利用率使其对废水一直存在处理效率低的问题。加之在现阶段研究中,TiO2薄膜的制备工艺往往较为复杂,这些原因阻碍了其在实际中的进一步应用。由此,寻找一种简单有效制备TiO2薄膜并使其能够在太阳光下快速降解染料废水成为这一研究领域的关键。本文以过硫酸铵水溶液作为N、S来源,通过电辅助氧化法成功制备了具有较高催化活性的锐钛矿NOx/S
土壤酶和土壤微生物对土壤有机质的形成及营养物质的转移起着重要作用。了解氮沉降背景下土壤生物活性是预测全球土壤碳循环的重要研究内容。气候变化对有机质分解和养分循环的影响在很大成度上取决于土壤微生物和胞外酶的响应。目前,模拟氮沉降对土壤微生物和酶活性的影响尚未有明确一致的结论,相关研究仍存在很大不确定性。四川盆地西缘是青藏高原向四川盆地延伸的过渡带,是华西雨屏区的核心地带,由于独特地理地貌和气候特征,
类风湿性关节炎是一种无法根治并可引起多种并发症的严重多系统免疫性疾病。滑膜增生是类风湿性关节炎的病理性改变之一。滑膜增生不仅侵犯人的四肢关节滑膜组织还会破坏人的神经、血管等重要器官组织,通常表现为滑膜充血、水肿、渗出。滑膜增生侵蚀组织并伴随有积液扩散,严重情况下容易导致关节处神经坏死。因此如果能够在疾病早期确诊并采取对应的治疗措施对于改善骨关节的侵损程度,减低或延缓致残率有着相当重要的医学价值。磁
西南山地地区随着城镇化的快速发展,公路系统日趋复杂多样化,成为西南山地区域重要的基础设施,承担着经济发展和应急避难的关键角色。然而,随着西南山区复杂自然环境中人类活动的加剧,自然灾害和次生灾害频繁发生,对山区灾区的破坏越来越严重,西南山地灾害区域公路系统出现了一些诸如应对突发灾害能力较弱,系统连通性弱,注重个体建设而忽视相互协作与配合等问题。因此,本文以西南山地灾害区域典型区域汶川大地震极重灾区为
我国是一个地震高发国家,而路基又是公路最普遍、最基本的结构,一旦遭受震害,其破坏是普遍性的,造成的生命财产损失也是巨大的。随着现代技术的进步,路基填料逐渐向轻质材料方向发展,泡沫轻质土有质量轻、流动性好、凝结时间短、能垂直浇筑节约空间等优点,在公路工程方面应用日益广泛。本文旨在通过泡沫轻质土路基振动台试验和动力有限元数值模拟,探究泡沫轻质土路基在地震动作用下的加速度、位移和应力响应,揭示泡沫轻质土
随着人类活动空间的扩展和国家西部建设的加速发展,寒区重大基础建设项目逐渐增多。随着寒区工程建设步伐的加快,有必要深入研究冻土的力学特性以确保冻土地区结构物的稳定性。冻土损伤本构理论的研究是岩土工程领域一个重要的课题,本文采用室内试验的技术手段,以冻结含砾砂土为研究对象,在不同温度与围压条件下开展低温常规三轴试验,研究冻结含砾砂土的应力应变特性、体变特性和强度特性,建立冻结含砾砂土的损伤统计本构模型
在磁共振射频前端中,发射/接收(Transmit-Receive,T/R)开关用于切换射频发射和射频接收通路。磁共振系统中,发射通路的T/R开关一般位于射频功放与发射线圈之间;接收通路的T/R开关则位于接收线圈与前置放大器之间。在发射期间,接收通路上的T/R开关需要隔离大功率射频信号,避免前置放大器损坏;接收期间,T/R开关则需具有足够低的插入损耗,避免对探头采集的磁共振信号造成衰减。常规的磁共振
近年来,我国乡村旅游产业发展迅速,集生态、康体、休闲等功能于一体的绿道旅游形式也为乡村旅游业带来了新的机遇。乡村绿道因其所处的乡村环境,在具体规划内容上与生产性景观产生了高度的重叠与契合。在成都,将生产性景观结合绿道,加上连续性的特征,形成一种新的城乡景观发展策略,并取得了极高的社会、经济、环境和发展效益。目前,设计师已逐渐意识到乡村绿道对生产性景观的积极影响,也相继进行了一些乡村绿道与生产性景观
R-μ基本规律是世界地震工程界普遍认可的规律,国外抗震设计均按此规律进行抗震结构设计,然而,我国抗震规范未遵循R-μ基本规律。我国抗震规范采用相同的R值,但抗震措施从9度区到7度区逐级下降,现行规范对8度0.20g区框架结构所采取的抗震措施是否有效,目前所作的研究工作不多,因此对该烈度区框架结构抗震措施的有效性进行评价是非常有必要的。抗震措施包括内力调整和抗震构造措施。内力调整的目的是使结构在地震
伴随着大数据的积累和算力的不断发展,深度学习从理论的平原向高坡迈进,并对计算机视觉领域产生了深远影响。作为计算机视觉的基本课题之一,目标检测在引入深度学习后已经大幅度超过传统机器学习方法的速度和准确度。但是在应用到实际场景时,目前最先进的目标检测方法对于小目标的检测能力仍然较差。考虑到自动驾驶,无人机巡航,机器人巡航等实际涉及安全的场景下,及时准确的检测小目标是确保安全的关键,小目标检测已然成为目