基于恒Q变换和图傅里叶变换的录音回放检测研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:chenchen3766
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的快速发展使得说话人识别系统在日常生活中应用愈来愈广泛,但随之而来的是各种伪装语音对说话人识别系统的攻击。在众多伪装语音中,录音回放攻击凭借其录音设备质量的提高和攻击者不需具备专业知识等优势,对说话人识别系统构成了巨大的威胁。为了保障说话人识别系统的应用安全,检测录音回放攻击变成了亟待解决的问题。为提高录音回放攻击的检测成功率,本文分别提出了两种用于检测录音回放攻击的特征提取方法。分别为基于恒Q变换(Constant Q Transformation,CQT)的倒谱系数和基于图傅里叶变换(Graph Fourier Transformation,GFT)的倒谱系数。人的发声器官的频率范围较多地集中在低频,对信号常用的时频转换方法是短时傅立叶变换(Short-Time Fourier Transform,STFT),STFT在较低频率下会出现周期截断等问题,会导致语音的频率分辨率较低。恒Q变换可以很好地解决这个问题,为低频提供更高的分辨率,更完整地反应了原有声音的特征。本文提出了基于方差的恒Q倒谱系数(Constant-Q Variance-based Cepstrum Coefficients,CVCC)和基于均值的恒Q倒谱系数(Constant-Q Mean-based Cepstrum Coefficients,CMCC),两种特征通过在恒Q变换后的幅度谱加入样本的均值和方差,使回放录音中的高频非线性失真得到进一步增强,从而使回放语音与真实语音的差异进一步扩大,有助于系统更好地分辨出回放语音。与传统的数字信号处理相比,图形信号处理能更精准地表示语音采样点之间的相关性,挖掘语音采样点间的更多隐藏信息。使用组合移位算子构造语音图信号,在此基础上对图域的语音信号进行图形傅里叶分析并提取图频率倒谱系数(Graph Frequency Cepstral Coefficients,GFCC)特征。与快速傅里叶变换相比,图傅里叶变换能更准确地表示语音采样点的结构关系,能反应出真实语音和回放语音中的特征细节,有助于回放语音检测成功率的提升。在研究中,使用GFCC特征和轻量卷积神经网络组成的录音回放检测系统,在等错误率(Equal Error Rate,EER)的评价指标下,相比于ASVspoof2017 V2基线系统(CQCC-GMM),基于GFCC的系统的性能有很大的改进。在等错误率和串联检测成本函数(tandem Detection Cost Function,t-DCF)的评价指标下,基于GFCC的系统的性能很大程度上优于ASVspoof2019的LFCC-GMM基线系统。基于ASVspoof2017 V2评估集的录音回放攻击检测结果表明,本文提出的基于恒Q变换和基于图傅里叶变换的两种录音回放检测系统等错误率分别为14.05%和10.96%,相比于基线系统CQCC-GMM,性能分别有16.29%和28%的提升。基于ASVspoof2019物理评估集的录音回放攻击检测结果表明,本文提出的基于恒Q变换和图傅里叶变换的两种录音回放检测系统的等错误率分别为3.2%和1.51%,相比于基线系统LFCC-GMM,性能分别有76%和89%的提升。实验结果充分表明了两种特征可以有效地抵御录音回放攻击,在一定程度上提高了说话人识别系统在实际应用的安全性。
其他文献
由于传统系统在实际应用中无法准确计算出网络信息与检索词之间的关联性,导致系统的调和中数数值较低,为此提出基于元搜索引擎的网络信息智能检索系统设计。在系统硬件方面设计了元搜索引擎和检索器,利用元搜索引擎收集海量网络信息,由检索器实现系统网络信息检索功能;在系统软件方面,利用MySQL数据库对系统信息进行存储,并且采用空间向量方式存储网络信息,根据检索词的区分能力以及检索词在网络信息文档出现频率,计算
期刊
随着网络媒体与通信技术的不断发展,信息的传播方式与传播环境都发生了极大的改变。这些技术的发展无疑降低了信息交换的成本,为各种新闻政策、科学知识的传播普及提供了快速有效的途径,然而低门槛、高自由度的网络环境也使得虚假信息能够快速传播并造成大范围影响。如果谣言信息不能及时地被引导与控制,那么很容易引发群众恐慌,影响公共秩序,破坏社会稳定。因此,建立合理的谣言传播模型、研究谣言传播过程中行之有效的抑制策
学位
本文旨在乡村振兴背景下,以平江县上中村农业生态园景观设计项目为切入点。通过理论联系实际,打造出一个将景观、产业、生态以及文化相融合的现代农业生态园。同时,依托园区自身的区位、交通、产业以及文化优势,对上中村农业生态园进行景观设计。在理论研究的基础上,联系国内外相关案例,分析了农业生态园的设计在产业、生态、文化方面所存在的问题,并提出解决方法。同时,研究了乡村振兴的相关概念以及乡村振兴背景下上中村的
学位
早在2017年,我国《文化部“十三五”时期文化产业发展规划》中就提到:“利用现代科技手段推动文化内容形式和传播手段创新。”2020年发布的新媒体蓝皮书中提到传统文化因为新的传播技术而焕发出生机与活力,并催生出众多网络文化新形态。随着新媒体技术的不断进步,数字移动媒体的发展趋势迅猛,文创产业搭乘新媒体的快车,开拓了更广阔的市场和平台。国内的众多高校也开始关注校园文化的开发,校园文创成为展现校园文化的
学位
<正>我国是世界养猪大国也是猪肉消费大国,我国养猪业(生猪生产)经历了从供应不足(短缺)、到供需动态平衡、再到追求品质品味这样一个发展过程。目前,我国经济发展到了一个新的阶段,人们生活水平极大提高,城乡居民对猪肉的消费已由数量的满足(有肉吃)转向质量(吃好肉)的提升,更加注重营养、品质、口感和健康,特别是对优质高端猪肉的需求与日俱增。
期刊
<正>阿伏加德罗常数的应用是高考全国卷中的高频考点,在《中国高考评价体系》指导下的新高考中仍然将是高频考点。之所以这样推测,原因有三:一是它能落实《普通高中化学课程标准(2017年版2020年修订)》中"宏观辨识与微观探析""证据推理与模型认知"等高中化学学科核心素养;二是它能承载"理解与辨析能力""分析与推测能力"的考查;三是它能体现微粒观和变化观等化学观念。
期刊
随着信息时代的到来,光电显示技术的发展突飞猛进,制备性能优异的显示器件逐渐成为信息显示领域研究的焦点内容。液晶显示器发展至今,已经成为人们生活和工作中应用最为广泛的显示器件,长时间占据显示市场的主流。而近年来电子设备以超快的速度迭代更新,智能设备对液晶显示器的要求也越来越高。传统的液晶显示器响应速度较慢,这会导致在显示视频图像的过程中出现画面滞后、显示不连贯的现象,极大地降低了显示品质。液晶显示技
学位
<正>阅读教学在初中英语教学中占据不可替代的地位,然而,在长时间的英语教学工作中,大部分教师将阅读教学的重点置于词汇与语法方面,忽视培养学生对阅读文章整体的理解,导致英语阅读教学工作的质量和效果难以有效提升。针对这一情况,本文以读—思—言教学模式为切入点,探究加强初中英语阅读工作的具体措施,以供参考。一、读—思—言模式的内涵在新一轮教育优化改革工作不断推进的时代背景下,教学改革为初中英语阅读教学指
期刊
随着我国步入新的发展时代,在日常消费活动中,以达到良好体验为目的的消费追求已然成为体验经济时代下人们的关注热点。作为商业性空间的餐厅,在餐饮消费过程中顾客体验感的好坏将直接关系到餐厅是否会被再次选择其成为消费对象。人们在餐饮空间中的消费已经不再满足于传统意义上的能吃饱喝足,而对餐厅能否使自己体验到愉悦的消费过程更为注重。但令人遗憾的是,市场上现有的餐厅设计多充斥着同质化、主题模糊、人文特色缺失、体
学位
当前我国的基建工程正在如火如荼地进行,建筑工地遍布全国各地,但是部分工人防范意识的不足,尤其是缺乏安全帽正确佩戴的意识,从而导致工地事故频发。因此研究适合在工地应用场景下的安全帽检测算法尤为重要。性能优秀的算法不仅能减少建筑公司的损失,也能在很大程度上保证工人的生命安全。然而,复杂应用场景的干扰因素对算法的快速性、鲁棒性有很大的考验,如目标遮挡,检测目标较小、光线昏暗等。为了解决这类问题,本文基于
学位