面向主题模型的对抗攻击研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:bd05082052
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是一种用于在文本数据中发现抽象主题的统计学模型。作为文档级别文本语义理解的重要工具,主题模型是舆情监测、情感分析、信息匹配检索等自然语言处理(Natural Language Processing,NLP)应用的重要基础支撑。然而,有研究表明即便是最先进的自然语言处理模型也容易被精心制作的恶意对抗性输入迷惑。考虑到主题模型在诸如舆情监测、同行评议论文匹配等安全敏感的任务中应用广泛,对主题模型的安全性研究显得十分重要。近年来,为了更好的研究NLP模型的安全性,学术界针对基于深度学习的模型提出了大量对抗攻击方法。然而,现有对抗攻击方法的目标模型大多是处理句子级别文本的分类模型,难以直接迁移到主题模型。基于以上背景,为了更好的研究主题模型领域对抗攻击方法,本文首次研究了基于CGS(Collapsed Gibbs Sampling)的LDA(Latent Dirichlet Allocation)主题模型的安全性问题,并研究了对抗样本在不同结构主题模型之间的迁移性。本文主要研究内容如下:(1)面向基于CGS的LDA主题模型的对抗攻击。本文首次提出了以操纵目标主题排名为目标的组合优化问题,推导了更高效的主题分布推理过程,设计了贪婪的攻击算法EvaLDA。通过少量的同义词替换进行目标主题排名提升(下降)攻击,并在两个公开数据集上进行了广泛的对比实验,从不同扰动程度、不同攻击目标、攻击不同原始排名主题等角度进行对比实验。实验结果证明本文提出的EvaLDA仅在替换受害者文档中1%的单词的情况下,就可以有效操纵目标主题的排名。(2)面向主题模型的可迁移性对抗攻击。本文建立了以最大化扰动文档主题分布为目标的对抗攻击模型,提出了一种高效的二阶段对抗样本生成器TopicAttack。为了提升对抗样本在不同主题模型间的迁移性,本文提出了一种集成攻击方法TopicAttack+,可以在攻击者所掌握的代理模型集合中选出最优的模型组合,并在此基础上生成迁移性更强的对抗样本。在三个公开数据集和八种不同类型的主题模型上进行对比实验,证明了对抗样本在主题模型间存在可迁移性,TopicAttack可以有效干扰受害者文档的主题分布;相对于TopicAttack,TopicAttack+平均可以增强对抗样本10%-30%的迁移攻击效果。本文探讨了面向主题模型的对抗攻击方法,旨在更深入的了解其安全性。
其他文献
第一部分焦亡与大鼠脑缺血再灌注损伤的相关性研究目的:研究大鼠脑缺血再灌注损伤(ischemia/reperfusion,I/R)模型中,NLRP3炎症体相关蛋白包括凋亡相关斑点样蛋白(Apoptosis-associated speck-like protein containing a CARD,ASC),NLRP3,半胱氨酸天冬氨酸酶-1前体(pro-Caspases-1),半胱氨酸天冬氨酸酶
学位
随着高质量共建“一带一路”不断推进,中国企业走出国门,并与“一带一路”沿线市场企业组建了技术标准联盟这一全新的组织方式。面向“一带一路”企业技术标准联盟对于推动中国技术标准引领产品、技术和服务等全要素“走出去”具有重要作用。因此,研究其运行模式和实现路径有助于了解和掌握联盟运行情况,对中国企业如何选择适宜的运行模式,实现高效“走出去”具有一定的实践参考价值。论文分别使用扎根理论研究、系统动力学仿真
学位
信息隐藏作为一种保障信息安全的重要技术,可以在不被第三方察觉的情况下,把信息通过特定的方式嵌入公开载体中并完成信息传递。文本已被广泛应用于日常生活中,成为人们传递信息最常用的媒介之一。文本信息隐藏技术采用文本作为隐藏信息的载体。早期的文本信息隐藏方法大多采用修改载体内容的方式嵌入秘密信息,因此很难抵抗各类隐写分析检测。为了解决上述问题,无载体信息隐藏技术应运而生。该技术强调不修改载体本身,而是从文
学位
近年来,在我国社会发展以及经济发展的推动下,科学技术水平有了很大程度的提高,PLC技术作为新兴科技在多个领域中得到了推广与应用,将其应用到电气工程及其自动化控制中对进一步提升工程效率以及提高自动化控制水平有重要的作用。基于此,文章以PLC技术在电气工程及其自动化控制中的应用为研究内容展开了深入的探讨,先分析了将该技术运用到电气工程及其自动化中的价值和优势,进而具体探讨了PLC技术的具体应用策略,以
期刊
近年来,随着互联网的普及,网络用户迅速增长,网络环境也日益复杂。为处理网络中成倍增长的数据,各式各样的互联网技术也随之出现。无论在网络上还是日常交流中,语言自出现伊始便一直担任着人们交流的媒介,应用于人们生活的方方面面。为了处理网络环境下的大量语言文本信息,自然语言处理技术开始出现并迅速发展,随后广泛应用于网络数据的处理。如基于分类任务的情感分析,新闻分类和基于生成任务的文本摘要和机器翻译等。但自
学位
实验室综合管理信息系统已是国家重点实验室下设测试分析中心实验室管理的必要工具,可实现全方位、全流程实验室精细化管理。地表过程与资源生态国家重点实验室的综合管理系统是涵盖实验室资源管理、人员管理、安全管理、数据管理的一站式服务和管理平台,实现了规范化、智能化和流程化的实验室管理机制,显著提高了实验室管理水平和工作效率。对实验室综合管理系统运行统计数据进一步分析,并对实验室管理系统的运行状况与问题进行
期刊
近年来,随着“知识经济”的提出,科技创新日益成为全球经济发展中的核心竞争力,打破知识生产与知识开发利用之间的界限成为一种必然趋势。学术创业作为科研机构、大学、大学教师、科研人员等积极参与创新创业的重要途径,极大地促进了区域经济的发展和社会科技的进步。然而,国内一系列鼓励科研人员进行学术创业的政策并没有真正激起科研人员学术创业的热情,我国参与学术创业活动的科研人员数量少,规模小。创业动机是激发学术创
学位
自动文摘研究是自然语言处理领域的研究热点之一,它能够有效地帮助人们从海量的互联网信息中快速筛选出有用信息。然而,传统的自动文摘研究大多集中在对文本语义信息的利用,而忽略了文本的结构信息对于摘要任务的作用,这一缺陷在中文自动文摘中尤为突出。相比于英文文本,中文文本具有更加复杂丰富的篇章结构信息,而篇章结构信息尤其是主次关系信息对于定位文档核心内容、总结文档核心思想具有举足轻重的作用。因此,本文开展了
学位
自由运转激光器的频率和功率经常随时间漂移和抖动,不能满足精密测量、量子计量、量子信息等领域的激光应用要求。人们必须在光学平台上搭建额外且复杂的控制系统来对激光的波长、功率和偏振进行稳定,这限制了激光系统的便携性,也是磁力仪拓宽应用领域的一大难题。有些高精度磁力仪,如铯-氦磁力仪,甚至要求频率和功率同时稳定。针对激光频率、功率和偏振态的稳定问题,本文提出了一套便携高效的解决方案,设计了一个光纤耦合的
学位
自比特币发行以来,作为支撑比特币的底层技术,区块链技术得到井喷式的发展与应用。其安全问题也随之成为人们的关注重点,尤其是挖矿攻击问题。在基于工作量证明(Po W,Proof of Work)的区块链系统,例如比特币系统中,矿工花费资源生成区块,并以此获得收益。鉴于矿工的自利性,恶意矿工可能会发动各类挖矿攻击,如51%攻击、自私挖矿攻击、区块截留攻击等,以力求收益最大化。挖矿攻击能提高攻击者收益、降
学位