基于深度残差网络的伪装语音检测

来源 :广东技术师范大学 | 被引量 : 2次 | 上传用户:YINGWU2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音伪装可以隐藏说话人的身份或冒充目标人物身份,从而攻击自动说话人识别(automatic speaker verification,ASV)系统。其中,语音变形(voice transformation,VT)操作可以在保持语音自然度的同时改变说话人的声音,隐藏说话人的真实身份,当前很多音频工具具有这种功能。另一方面,重录语音可以通过录音设备方便的在目标人物不知情的情况下,将其声音录制下来攻击ASV。已有研究表明,目前的ASV系统面对这两种伪装会产生极高的错误拒绝率和错误接受率,为社会安全带来危害。为此,对这两类伪装语音的检测具有重要的现实意义。本文研究基于的深度残差网络结构的VT和重录语音检测方法,该网络可以自动提取语音数据的深层特征,有较强的检测能力。主要工作包括:1.针对VT的检测,本文构造了深度残差卷积神经网络,该网络结构由16个特殊残差块组成,每个残差块包含三层,这种结构可以很好的学习到语音信号的深层特征,且该网络结构随着网络层数的增加,不会出现梯度消失问题,其结果不会产生衰退现象。该实验分别对三个语音数据库进行了验证:在同源数据库的检测中,所有的检测精确度都在96.4%以上;在交叉数据库的检测中,精确度都在96.43%以上;在对最小伪装因子?4进行检测中,所有精确度都在96.1%以上。以上验证结果都高于已有的研究结果。2.针对重录语音的检测,本文构造的深度残差网络共由15个残差块组成,每个残差块包含两层,此神经网络结构可以在极短的语音段上充分提取特征信息,同时实验也考虑了语音录制设备、录制距离以及录制环境等方面的影响。结果表明,将录制设备、录制距离、录制环境不同的数据集合起来,能极大的提高算法模型的鲁棒性,实验精确度可达99.8%以上。本文所提的针对变形语音和重录语音检测算法为语音伪装检测提供了理论和现实方法,可增强ASV的防御能力,对社会安全具有重要意义。
其他文献
为准确衡量可见光通信(Visible Light Communication,VLC)视频传输的时域质量、空域质量、综合质量,本文以“基于多任务深度学习VLC视频传输质量评价技术”为题,设计基于多任
大气温度和湿度是非常重要的气象参数,微波辐射计是探测大气温度和湿度的重要技术手段。对于大气温度和湿度廓线的垂直探测而言,探测通道数与频谱分辨率和垂直分辨率相关。为
本文将阿伦特这部晚期著作《精神生活》作为独立研究对象,试图将阿伦特众多分散的思考线索,编织进精神生活的宏大构思之中。首先对阿伦特踏上“寻思”之旅的根源进行了探究,阿伦特转向精神生活研究,一方面是由于其参与了艾希曼的审判过后,对于恶的根本看法发生了改变,从极端的恶转向了平庸的恶。另一方面,阿伦特试图弥补积极生活中的重大缺陷,对现实生活与沉思生活之间的关系进行重新考量。在阿伦特视域下的精神生活部分,她
应变传感器在土木工程结构健康监测领域中扮演着重要角色。目前主流应变传感器存在一些不足,例如电阻应变片耐久性差、振弦传感器售价较高且只适用于测量静态应变、光纤布拉
针对蝙蝠算法(Bat Algorithm,BA)在寻优时存在易陷入局部极值、收敛不稳定等问题,提出了一种基于多普勒补偿与变异选择的蝙蝠算法(Bat Algorithm based on Doppler Compensat
随着云计算、大数据、工业互联网的发展,越来越多的应用服务被部署到数据中心网络,其中一些数据密集型应用程序要求流在尽可能短的时间内完成。为了实现数据中心最小化流完成
随着遥感卫星不断的发射升空,遥感卫星传感器的空间分辨率已达到亚米级别,可以从遥感影像获得越来越多有价值的信息。建筑物是人类生活栖息的场所,与我们生活息息相关,基于高
弹载或机载无源雷达具有系统简单、作用距离远、隐蔽性强等优点被广泛应用于军事和民用领域,例如导弹在远距离导引时需要对地面慢速运动目标实现远距离纯方位定位或跟踪。受
超材料是一类由人工设计的具有亚波长结构的呈周期性排列的人工复合材料,因其具有许多自然界中已存在的材料所没有的独特性质,所以极具研究价值,引起了研究人员的广泛研究兴
随着网络信息化时代的迅速发展,网络中的信息交互日益激增,传统通信已经逐渐无法满足人们对信息安全的要求,而量子通信作为一种新型的通信方式,因其绝对安全的通信特点,逐渐