高质量语音对抗样本生成技术的研究

来源 :宁波大学 | 被引量 : 0次 | 上传用户:congsun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习在语音识别领域的快速发展,使得语音识别系统的准确性和实时性得到了巨大的提升。近年来,市场上涌现出了类型种类众多的智能语音产品,例如带语音助手的智能手机和具有语音控制功能的智能家居等。近年来有研究表明深度学习容易遭到对抗样本的攻击,误导语音识别系统做出错误的翻译或攻击者指定的翻译,且此类攻击很难被人类察觉。尽管如此,对抗样本的研究也有助于提高深度学习的安全性。目前的语音识别领域的对抗样本攻击方法存在以下两个问题:第一,攻击效率较低;第二,可转移性较差。因此,如何构建攻击成功率高、语音质量高、可转移性强、鲁棒性强的对抗样本,就成为保证深度学习安全性迫切需要解决的问题。本学位论文的主要内容是研究对抗样本攻击技术,生成对抗样本来攻击以深度神经网络为核心技术的语音关键词识别系统。在尽可能减少语音质量损失的条件下,围绕如何提高对抗样本攻击成功率和可转移性,提出了两种高效的语音对抗样本生成技术。本学位论文的研究工作,主要包括以下两个方面。1、高质量语音对抗样本的生成方法研究。通过改进现有生成对抗网络结构和设计对抗损失,提出基于生成对抗网络框架的语音对抗样本生成方法。将训练好的目标受害网络置于生成对抗网络框架之中,并设计对抗损失计算对抗样本的预测结果和预设目标的距离。通过交替训练的方式最终得到生成器,用训练好的生成器就能快速生成语音质量较好、攻击成功率高的语音对抗样本。实验结果表明,本文提出的方法生成的对抗样本的语音失真很低,并且对目标语音关键词识别网络的攻击成功率达到了92.33%。2、语音对抗样本的可转移性研究。本文利用条件生成对抗网络框架来控制对抗样本的生成,并通过目标受害网络集成方法提高对抗样本的可转移性。为控制生成器生成指定攻击目标的对抗样本,本文设计了一个目标标签映射模块。该模块能将标量类型标签转化成向量类型标签特征图,并作为条件信息与语音一同输入生成器。其次为了提高对抗样本的可转移性,在网络框架中集成了多个不同的目标受害网络,将各个不同受害网络的输出进行融合,生成器被训练成必须生成同时能骗过多个目标网络的对抗样本。因此只需要训练一个生成器,就能同时攻击多个不同的目标网络,还能提高对抗样本的可转移性。实验结果表明,与最先进的方法相比,该方案生成的对抗样本在语音质量上提高了19.1%,攻击成功率达到了96.53%;集成模型攻击未知语音关键词分类网络的成功率达69.71%,且能够用于实时攻击场景。
其他文献
随着移动通信系统的高速发展,基带信号的带宽不断增加,第五代移动通信系统(5G)逐步商用,5G NR信号的带宽最高可达400MHz,5G NR信号采用QPSK、16QAM、64QAM和256QAM等高阶调制方式,因此射频功率放大器的动态非线性特性也越发严重,功放记忆效应也表现得格外明显。为解决功放的非线性问题,数字预失真技术作为研究射频功放线性化的重要技术手段,可以改善功放的非线性特性,提升功放效率
学位
光纤通信技术的快速发展让人类社会迅速进入了高速信息时代,对诸如波长转换器、光开关等无源非线性器件的要求以及需求量也随之得到了极大的提升,而寻找具有较高三阶非线性性能的材料是非线性器件广泛应用的重点之一。在众多可制备成光纤的材料中,硫系玻璃具有高的线性折射率(n0)与非线性折射率(n2),超宽的红外透过范围,低声子能量等优势,是全光开关、光频梳等红外非线性光子器件的理想候选者。本文中利用熔融淬冷法制
学位
如今,2μm超短脉冲光纤激光正朝着高强度和窄脉宽的方向发展,采用啁啾脉冲放大的方式来实现超短脉冲激光峰值功率的极大提升是当前的主流技术之一。脉冲展宽器是啁啾脉冲放大系统中的重要器件,尽管目前空间型2μm波长脉冲展宽器发展已相对成熟,但在如今追求全光纤化激光系统的趋势下,材料和光纤是依然是目前限制2μm全光纤系统的关键因素。经过特殊结构设计的石英光纤展宽器虽使用方便,但是单位长度的光纤提供的色散量相
学位
硫系光纤因其中远红外波段出色的透过特性,使其在红外激光光电对抗、光纤传像束、激光医疗等诸多领域具有巨大的应用潜力。其中以单模硫系光纤最受关注,这是由于单模光纤中只传输基模,光强分布接近于高斯分布,并且无模间色散,在长距离的激光传输和光束控制方面存在巨大优势。人们追求高质量单模硫系光纤的脚步从未停止过,但是受成型工艺条件限制,光纤制备过程中引入的材料或结构缺陷始终影响着光纤的整体性能。因此,亟需提高
学位
基于视觉的同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是当前机器人导航、自动驾驶等领域的研究热点,但是目前视觉SLAM的研究大多为基于静态环境下的假设,当场景中出现动态物体时,系统的精度和鲁棒性则难以保障,此外,构建出的地图往往会有移动物体重影。针对以上问题,本文在经典的ORB-SLAM2基础上,研究并设计了一种面向动态物体场景的视
学位
推荐系统作为解决“信息过载”问题的有效方法,推动了包括电商在内的众多领域的发展,序列推荐作为其中一类重要的方法,旨在建模用户动态行为偏好,预测其下一次可能的交互行为。近年来,基于各类深度学习方法的序列推荐算法喷涌而出,极大提升了推荐系统的推荐效果。现有序列推荐算法仅从项目间相对时序关系中挖掘项目间的关联,忽略了其真实交互时间信息的探索与利用;此外,该类算法还存在项目间高阶复杂关系挖掘不充分、辅助信
学位
随着网络规模的剧增,高速、无线、数据中心、卫星网络的逐渐普及,用户对网络的需求越来越多,而用户的需求使得应用趋于多样化、复杂化,这给TCP的传输质量带来了较大挑战。拥塞控制算法作为TCP的重要组成部分,对其性能有着较大的影响。低优先级拥塞控制算法主要承载大文件传输、应用更新等的非交互应用流,此类应用常常以背景流的形式存在于网络中,能够有效改善交互式实时性应用流的传输性能。然而在实际的网络中,低优先
学位
传统语音分离算法的数学建模有很大的局限性,导致其在复杂环境下,比如低信噪比和非平稳噪声等情况下,语音分离效果不理想,无法满足各种实际场景中的应用。而基于深度学习的语音分离算法通过对带噪语音信号与目标语音信号之间的非线性映射关系进行学习训练,因而能够极大的改善在复杂环境下的语音质量。本文主要通过充分利用门控循环单元网络(Gated Recurrent Unit,GRU)的结构优势来提高语音分离的性能
学位
近年来,视网膜疾病是最重要的公共健康问题之一。分析视网膜图像中丰富的病变信息对预防和诊断相关的视网膜疾病有着重大意义。视网膜血管的形态特征如角度、分支、长度、宽度和曲折度在分析视网膜图像的各种特征中有着关键作用,因此对视网膜血管的准确分割非常重要。然而即使经验丰富的专家通过手动方法对视网膜图像进行血管标注也是容易出错并且耗时的,因此,建立模型准确地自动分割血管至关重要。此外,一幅合格的视网膜图像是
学位
生成对抗网络是一种无监督学习的深度学习模型,已广泛地应用于人脸合成、图像风格迁移、图像修复、高分辨率图像生成等计算机视觉领域。但是传统的生成对抗网络无法完成训练集较小的生成任务,而结合半监督学习的生成对抗网络不仅可以扩充训练样本量,而且能增强模型的鲁棒性。中国书法是中国的特色文化艺术,是中华民族的象征性符号。在书法漫长的演变岁月里留下过很多精彩绝伦的书法作品,然而这些作品中保存下的书法汉字十分有限
学位