容错增强的语音识别系统的研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:acdef2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能的高速发展,各种智能应用和设备广泛出现,一些传统的生产生活方式被替代,但随之带来的是人工智能安全问题。造假图像和音频的出现、对抗性样本攻击的出现,都对人工智能系统产生巨大的威胁。可信AI,作为目前被广泛关注的研究热点,通过各种防御和容错技术,使得人工智能系统不再轻易被攻击。本论文针对语音方面的攻击手段提出相应的容错方法,提高语音识别系统的鲁棒性。目前语音攻击方法主要有三种,语音对抗性样本攻击、录音重放攻击和合成语音攻击。首先,本文针对语音对抗性样本攻击,提出了基于语音预处理和模型鲁棒训练的两种对抗容错方法,由于对抗性扰动的本质是噪声,其通过添加噪声的方式使样本越过决策边界,并被神经网络划分为不正确的类。因此基于降噪的预处理方法可以有效消除对抗性扰动,而模型鲁棒训练可以有效地增强决策边界,使得对抗性样本不能轻易越过决策边界。最终实验结果表明,在简短指令下,基于降噪的预处理方法使得识别正确率达到81.85%而基于模型鲁棒训练的方法可以达到89.61%,相比于原始模型有很大的提高。在长语音下,基于降噪的预处理方法使得识别正确率达到76.79%。其次,本文针对录音重放攻击,提出一种基于短时过零率变体的特征,称之为静音片段平均过零率(AZsil),用以检测录音重放攻击。由于录音设备噪声、环境噪声等因素的存在,使得录音存在与原始音频明显的噪声差异,而该差异在静音部分更加明显。本文利用这个差异,对每段语音进行异常静音片段的检测,噪声和原始的无声部分差异可以通过短时过零率反映,噪声过零率大于无声部分,因此本文将所有静音部分的短时过零率累加并求平均值,可以得到反映该语音信号噪声情况的AZsil特征,从而对重放录音进行检测。最终实验结果表明,使用AZsil特征可以有效检测重放录音,检测正确率达到94.61%。接下来,本文针对合成语音攻击,提出基于分段特征提取的合成语音检测方法。合成语音攻击种类多样,因此在检测上较录音重放攻击更困难。本文通过波形分析、聚类分析手段分析合成语音的特点。经过分析,大部分合成语音在静音片段存在合成瑕疵,这是因为静音片段可学习的特征较少,且通过聚类分析,利用更简短的特征进行模型训练,检测效果更好。本文将语音拆分为静音部分和有声部分,分别利用AZsil和基于分词的常数Q倒谱系数(WCQCC)特征进行提取。AZsil特征和重放录音类似,合成语音对于静音部分的合成可存在瑕疵,但该特征不能检测所有合成语音。于是本文对CQCC特征进行改进,形成WCQCC特征,该特征为语音中每一个单词CQCC特征的拼接,特征更集中。其次,我们提出有偏决策策略(BDS)综合评估两种特征的判断结果,以完成最后的检测。最终实验结果表明,BDS评估可以使得检测合成语音正确率达到94.77%。最后,由于语音识别系统可能同时遭受三种攻击的威胁,本文针对真实环境下的语音攻击,提出串并结合的容错方案,对三种攻击方式进行综合容错。最终结果表明,本文所提出的综合容错方案能有效检测造假语音,达到91.58%的检测正确率。
其他文献
在实际问题中,存在大量的模糊性现象,而经典集合论“非此即彼”的绝对性在描述这些模糊性现象时受到限制,由此产生了模糊数学。模糊积分方程作为模糊数学的重要分支,目前广泛应用于模糊控制和模糊经济等领域。现有大量学者对于一维模糊积分方程进行了研究,得到许多有效的数值方法,而对于二维模糊积分方程的研究相对较少。因此,本文提出了求解二维模糊Volterra积分方程的约化模糊微分变换法,该方法类比了模糊微分变换
近年来,高超声速飞行器在空天技术领域取得了突破性的发展,以其独特的优势成为世界关注的焦点。高超声速飞行器具有高空高速以及高机动能力的特点,面向未来空天作战和商业应用,基于高超声速飞行的智能化具有极其重要的意义。路径规划是高超声速飞行器执行飞行任务的重要技术,特别是需要面对来自地面或空间的未知威胁。飞行器路径规划的目的是在机动性能、敌人威胁和飞行时间等多约束条件下,寻找最优或次优路径以有效规避威胁。
近年来空天地一体化网络(Space-air-ground Integrated Network,SAGIN)受到了越来越多学术界和工业界学者的关注。空天地一体化网络具有显著优点:卫星网络覆盖范围广、空中网络灵活性强、地面网络资源丰富,SAGIN能有机结合不同层面网络优势,在地面监控测绘、导航制导、军事作战等各个领域发挥重大作用。针对上述问题,本文以软件定义网络(Software Defined N
本文研究一类奇异微分方程和一类全非线性奇异椭圆方程的正则性问题。第一部分我们研究的是一类奇异微分方程。首先我们运用比较原理和伸缩论证得到方程解的增长性估计和解在边界点附近的性质;然后我们引入了一个迭代,运用这个迭代和归纳法我们得到了方程解的正则性估计;最后把我们的论证方法推广到了一类含参奇异微分方程,并得到相应的正则性结论。第二部分我们把第一部分得到的奇异微分方程和含参奇异微分方程解的正则性理论分
随着人们对海洋资源与开发的日益重视,成像声纳不断发展,包含的数据量急剧增加,同时由于水下环境的错综复杂导致声纳图像受到多种不同类型复杂严重的噪声影响,优秀的声纳图像去噪算法计算复杂、耗时长,难以满足应用场合的实时性要求。而GPU具有大量计算单元,在大规模数据计算、处理速度等方面的性能大大超过CPU,表现出巨大的优势和潜力,利用GPU来进行声纳图像去噪并行加速研究,具备良好的可行性和工程应用价值,可
有机硅改性聚氨酯胶粘剂能够结合二者的性能优势,利用有机硅提高聚氨酯的耐水、耐热和耐候等性能。本文综述了聚氨酯胶粘剂的各种类型、有机硅改性聚氨酯胶粘剂的方法和研究进展,包括硅烷偶联剂和硅氧烷低聚物两种改性方法,并对比了不同有机硅改性的优缺点。
近年来,随着信息化时代的飞速推进,各行业涉及到的数据越来越复杂,数据规模也越来越大,比如超清彩图,视频,交通信息,遥感数据等。对于这些高维数据,我们将其称为张量。然而,在张量的采集传输过程中,受到各方面因素的影响,数据丢失问题不可避免。如何从已知数据推测出未知部分的信息对于后续应用至关重要。这个任务我们称之为张量补全。由于现实世界中,大部分数据都是低秩的,这个问题也被称为低秩张量补全。本文主要研究
近年来,围绕飞行器的应用方式越来越丰富,其应用领域更多,任务也更繁杂,单一飞行器已不足以供应所有需求。飞行器集群化可以满足扩张后的作业需求,提供更加复杂的功能服务,集群作业依赖精确及时的导航定位,因此迫切需要研究与设计高性能的集群协同导航系统。目前该技术研究仍在萌芽期,研究大多仅考虑到集群化数量、导航精度、定位成本以及自主性等方面中的一两个,没有给出一个较全面的统一通用的集群协同导航方法和仿真环境
假设一量子系统可能是N个状态之一,如何通过量子力学允许的方法来确定这一系统即为所谓的量子态分辨问题。在许多量子计算和量子信息处理过程中,都需要用到量子态分辨。因此,近年来,量子态分辨得到了广泛的研究。另一方面,量子纠缠在量子计算和量子信息中扮演着重要的角色,可以实现经典计算和经典信息论中不能实现的任务。最近的研究认为量子关联是比量子纠缠更广泛的一种量子非局域性,并且能够作为解释某些量子算法加速的原
粒子物理学标准模型(SM)自20世纪60年代末期建立以来在长达40年的实验检验之下,已被证实是一个极其精确的理论。标准模型描述所有已知基本粒子的相互作用,包括物质粒子(三代夸克和轻子)、传递电弱强三种相互作用的规范玻色子、以及产生所有基本粒子质量的Higgs玻色子。然而标准模型仍然遭受一系列基本的理论疑难(例如,无法描述引力作用、精细调节问题、平庸性问题、真空稳定性问题、太多任意参数问题等等),使