针对中文文本分类的对抗样本生成方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qh12121312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络由于其强大的表达能力,在图像,文本和语音等领域均取得了优异的成绩,并且受到了广泛的关注,因此其安全问题也显得尤为重要。迄今越来越多的研究证明深度神经网络的确存在脆弱性,即其输出结果容易受到对抗样本的误导,这些对抗样本是通过在原始输入上添加特定的扰动得到的。与图像领域中的对像素点添加细小的噪声不同,文本领域中的对抗样本可以理解为,通过对原始文本中的某些词语进行难以察觉的修改从而导致文本分类器作出错误预测。目前已提出的文本对抗样本生成算法大都在白盒条件下对模型实现对抗攻击,并且大多方法应用于英文语境。但是,显然黑盒条件下的攻击更接近现实的攻击场景。此外,由于中文的表意文字和英文的表音文字在结构上存在巨大的差异,针对中文语境下的研究也同样具有深远的意义。基于以上问题,本文进行了主要包括以下三个方面的工作:(1)在黑盒场景下,提出了一种基于多种关键词语修改策略的中文文本对抗样本生成方法。在文本对抗样本的生成过程中,首先要解决如下两个问题:如何在原始文本中确定需要修改的词语的位置,以及如何对这些词语进行修改才能在尽量不影响人类理解的同时还能导致分类器做出错误预测。基于上述分析,本文方法先利用句子独立性设计关键词语贡献值计算方法,来有效定位重要词语位置。并根据中文文本结构和语言特性设计出汉字拆分替换的关键词语修改策略,同时还将汉字交换和字符插入两种修改策略应用于中文对抗样本。(2)验证中文对抗样本生成算法的有效性。在两个情感分析数据集和一个垃圾邮件数据集中,对一个长短期记忆网络(Long Short-Term Memory,LSTM)实施对抗攻击,并通过LSTM模型分类准确率的降低程度来反映对抗样本的有效性。随后,经过讨论将最大的词语修改个数限制为15。实验结果表明由携程,京东和trec06c数据集中的文本所生成的对抗样本,最多能分别使LSTM模型的准确率下降46.36%,47.41%和50.51%,这可以证实本文方法能够对文本分类器实施有效攻击。(3)对生成的文本对抗样本进行全面地讨论和分析。首先,分析被攻击模型提取到的关键词语分布与正负样本中的高频词语分布之间的关系,并讨论不同的分布情况对对抗样本攻击性的影响。之后,基于对可读性和词移距离分布两方面的评估结果表明本文生成的文本对抗样本具有较高质量。此外,详细探讨在对抗样本生成过程中涉及到多种分词方式和多种文本长度时,对抗样本所具有的攻击效果,以说明本文方法具有良好的鲁棒性。最后,使用由LSTM模型生成的对抗样本对具有相同任务的不同分类模型进行对抗性攻击,以验证该方法的迁移性。其中,包括Text CNN,DPCNN,百度AI情感分析开放平台和腾讯云情感分析服务在内的文本分类器,在受到LSTM模型生成的文本对抗样本攻击时,识别准确率均有所下降。该结果可以证明本文生成的对抗样本可以迁移到具有不同结构且使用不同数据集进行预训练的模型中去。
其他文献
纯铁软磁材料是一种价格低廉且应用广泛的软磁材料,采用粉末冶金工艺制备软磁材料具有近终成型的优点。但由于传统粉末冶金工艺制备的材料孔隙较多、内部杂质含量过高、密度过低,导致其磁性能低于铸锻法制备的软磁材料,因此优化其制备工艺是提升材料磁性能的关键所在。本文采用水雾化铁粉为原材料,采用常温、温压、真空压制的压制方式结合粉末锻造和锻后热处理工艺制备高饱和磁化强度、高磁导率、低矫顽力的纯铁软磁材料,采用X
身份识别技术已成为信息安全领域中一个重要的研究方向,相比于人脸、指纹、语音等其它生物识别技术,心电信号(Electrocardiogram,ECG)的活体检测特性使其具有更高的防伪性,基于心电的身份识别技术研究已经成国内外生物识别领域的研究热点之一。本文的研究主要围绕非约束条件下单导联心电信号的身份识别算法展开,对心电信号的消噪预处理、时频特征提取和匹配识别等关键技术进行了深入研究,提出了基于集合
公交车本身空间相对密闭,人员流动性较强,载客量多,尤其是在早晚高峰时段容易发生超载行驶的情况,另外交通路况复杂多变,一旦公交车内突发火灾,由于其塑料类内饰材料发烟量大、热值高以及毒性大的特点,将会给乘客带来巨大的危险,同时也增加了扑救难度。本文选取了公交车内使用量较大的三种内饰材料(PE、ABS、PVC)作为实验对象,开展了一系列实验,对公交车内饰材料的热稳定性与热安全性进行了研究,可以为内饰材料
随着工业互联网的飞速发展,世界各国相继提出了自己发展工业4.0的战略及计划,通信技术、计算机技术、IT技术的发展逐步渗透到工控领域,并且对工业控制系统智能化、网络化提出了新的要求。PLC(Programmable Logic Controller,可编程逻辑控制器)作为工业领域的自动控制系统,它将计算机技术、自动控制技术和通讯技术融为一体。现场总线是一种互连智能现场自动化设备及其控制系统的数字式、
随着社会的飞速发展,能源需求的日益增加,研究开发新型可再生清洁能源解决了化石燃料枯竭和环境严重污染的问题。太阳能作为一种清洁能源,因其具有辐射广泛、储量无限、无污染、利用方便的特点而被广泛应用于新能源的开发中,逆变器作为光伏发电的核心,其成本和效率问题制约着光伏发电的发展。因此,研究成本较低、高效稳定的光伏逆变器有着重要的意义。优良的拓扑结构和并网控制策略对提高逆变器的稳定性和转换效率、降低系统成
目的:观察慢性萎缩性胃炎(chronic atrophic gastritis,CAG)及其中医证型与血清同型半胱氨酸(Homocystteine,Hcy)、维生素B6、维生素B12及叶酸水平的关系,以期为CAG的筛查和
一个国家所拥有的油气资源对其经济增长有着重要的影响。油气资源作为维护国家安全和保证经济可持续发展的基本动力,是国际社会研究的重要课题。中俄油气资源合作开发因而在新时代的油气资源环境中更加显得重要。本文首先对“油气资源”和“中俄油气资源合作开发”的概念进行了论述,运用了区域经济一体化,要素禀赋理论、国家竞争力理论、竞争合作理论分析了中俄油气资源合作的基础,之后针对中俄油气资源合作历史沿革和合作历程、
金刚石具有优异的光学、声学、热学、力学和电学等性质,且应用面十分广泛,是21世纪最具发展前景的材料之一。庞大的市场需求和前景促进了人工合成金刚石方面的蓬勃发展,微波等离子体化学气相沉积(microwave plasma chemical vapor deposition,MPCVD)法从出现到现在一直是公认的人工合成高质量金刚石的最佳方法。对MPCVD方法而言,其技术的核心在于稳定激发高能量密度的
令G是一个图,C是G中一个圈.如果G-V(C)有完美匹配,称圈C是图G的友好圈.如果G-V(C)有唯一的完美匹配,圈C被称为是图G的强迫圈.如果图G中任意一个偶圈都是友好圈,称图G是圈友好图.如果图G中任意一个导出偶圈都是友好圈,则称图G是导出圈友好图.如果图G中任意一个偶圈都是强迫圈,图G被称为是圈强迫图.如果图G中任意一个导出偶圈都是强迫圈,图G则被称为是导出圈强迫图.一个图G是PM-紧邻的,
随着网络的发展与普及,网络的运用已经深入到了人们生活的各个领域,它不仅影响到人们的生活方式及思维模式,还对社会发展产生重要影响。人们在感受网络带来便捷的同时,也面临着网络道德失范、道德人格缺失等问题。在这种情况下,如何充分发挥网络思想政治教育的作用,促进其功能的实现,是思想政治教育工作者亟需研究的现实问题。因此,深入分析阻碍网络思想政治教育功能发挥的因素,探索网络思想政治教育功能的实现途径是时代发