【摘 要】
:
为进一步提高语音欺骗检测的准确率,提出一种融合LSTM?GRU网络的语音逻辑访问攻击(语音转换、语音合成)检测方法.融合LSTM?GRU网络是由长短期记忆网络(Long short?term memory,LSTM)层、门控循环神经单元(Gated recurrent unit,GRU)层、丢弃层、批归一化层和全连接层串联结合的一种混合网络,其中LSTM层可以解决语音序列中的长时依赖问题,GRU层则可降低模型参数量.实验在ASVspoof2019 LA数据集上进行,提取20维的梅尔倒谱系数特征用于模型训练
【机 构】
:
中国刑事警察学院公安信息技术与情报学院,沈阳 110854;广州市刑事科学技术研究所,广州 510030
论文部分内容阅读
为进一步提高语音欺骗检测的准确率,提出一种融合LSTM?GRU网络的语音逻辑访问攻击(语音转换、语音合成)检测方法.融合LSTM?GRU网络是由长短期记忆网络(Long short?term memory,LSTM)层、门控循环神经单元(Gated recurrent unit,GRU)层、丢弃层、批归一化层和全连接层串联结合的一种混合网络,其中LSTM层可以解决语音序列中的长时依赖问题,GRU层则可降低模型参数量.实验在ASVspoof2019 LA数据集上进行,提取20维的梅尔倒谱系数特征用于模型训练,在测试阶段使用训练好的LSTM?GRU模型对测试集中的语音进行欺骗检测.与GRU网络及LSTM网络的比较结果表明:LSTM?GRU网络在3种网络模型中正确识别率最高,等错误率(Equal error rate,EER)比ASVspoof2019挑战赛所提供基线系统低27.07%,对逻辑访问攻击语音检测的平均准确率达到98.04%,并且融合LSTM?GRU网络具备训练时间短、防止过拟合及稳定性高等优点.结果证明本文方法可有效应用于语音逻辑访问攻击检测任务中.
其他文献
利用便携式拉曼光谱仪对收集到49个现售饮品或外卖配送饮品的一次性塑料杯盖样品和饮料瓶瓶盖样品进行检验分析,先根据样品外观进行分类,再根据拉曼位移按照成分进行分组,最后再通过计算相对峰高比进行进一步区分,都取得了较好的效果.建立了基于系统聚类的分类模型,利用主成分分析对60%的样本进行了降维和分类.最终被检样本被分为6类,分类效果较好.建立了一种快速无损检验一次性塑料包装瓶盖的方法,通过化学计量学和传统谱图解析方式可以使不同组间、同组不同样品间都可获得区分,可以为公安实际办案提供新的思路与参考.
随着聚丙烯(PP)材料在汽车领域的应用频率逐渐升高,汽车零部件由于受到外力产生的外观问题亟需解决.采用扫描电子显微镜(SEM)和透射电子显微镜(TEM)相结合的方法研究了 PP复合材料在常温下弯折发白的产生机理及其影响因素.探讨了 PP种类、增韧剂种类、相容剂种类,以及色粉含量对PP耐弯折发白的影响.结果表明:选用均聚PP材料、高熔指的增韧剂可以明显降低弯折发白的情况,加入无规共聚PP材料、特殊相容剂,以及增加色粉含量也可以减轻应力发白现象.
人工智能方法的高性能通常需要有充足的数据来训练模型参数.如何在数据量不足的情况下提升模型的性能,即小样本学习,是人工智能领域的重要研究方向之一.本文提出了基于图像插值的小样本学习策略,并在手写数字图像识别任务中验证了该策略的可行性.系统研究了全连接神经网络和卷积神经网络对MNIST和USPS手写数字图像识别的小样本学习性能.计算结果表明,基于图像插值的数据增强方法可以显著提升神经网络在小样本数据中的特征提取能力和学习效率,且选择合适的图像插值缩放系数可以进一步优化神经网络的小样本学习性能.
语种识别的关键是从语音片段中提取有用的特征.通过延时神经网络(Time?delayed neural network,TDNN)可以提取包含丰富上下文信息的特征向量,有效提高系统性能.本文提出一种ECAPA(Emphasized channel attention)?TDNN+对比预测编码(Contrastive predictive coding,CPC)模型的多任务学习语种识别网络.ECAPA?TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA?TDNN提取的帧级特征进行对
白化是一种能够去除数据各属性间相关性的数据预处理方法.最近提出的二维白化重构方法(Two?dimensional whitening reconstruction,TWR)是一种针对单张图片的白化方法,阐述了TWR方法等价于基于图像列的ZCA白化,即TWR具有去除图像列内相关性的作用;但是图像局部块内的相关性往往远大于列内,因此本文从去除图像局部块内相关性的角度出发,提出了两种TWR的改进方法:基于重组的TWR(Reshaped?based TWR,RTWR)方法和基于块的TWR(Patch?based
障碍人群的问题行为给个体、家庭和整个社会带来了沉重的心理压力和经济负担.为此,本文致力于探索利用可穿戴设备内置的9轴运动传感器结合先进的人工智能技术对障碍人群的问题行为进行感知的可行性,以期防止事故发生,降低看护成本.首先,对采集数据进行分析和预处理,提取共108维特征;其次,在特征选择过程中,分别采用原理性分析和随机森林两种方法,划分为3个特征子集,其目的是在保证识别精度的前提下降低时间开销;最后,采用两种验证方法,利用6种分类器进行评价.实验结果表明,特征融合能有效提高分类器的识别率;特征选择能在较低
频谱数据通常以多维度为特征,例如频率、时间、空间与信号强度等,这为采集以及可视化数据带来挑战.本文通过引入电磁频谱态势来表征信号功率谱密度在电磁空间的分布情况来实现目标区域内的频谱态势感知.目前频谱数据的获取方式通常为在目标区域内布置大量离散分布传感器,这导致采样效率低下,采样成本上升,在资源受限的情况下,上述采样方式并不可取.因此,本文从提高采样效率与降低采样成本出发,提出利用无人机采样实现目标区域内的信号功率数据获取,得到缺损二维、三维频谱态势,进一步提出一种模型和数据混合驱动的电磁频谱态势测绘方法,
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用.现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向.本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测.本
为了解决频谱资源利用率低的问题,引入了认知无线网络的概念.在认知无线网络中,次要用户可以在不影响主要用户正常工作的前提下机会性地接入授权频段,故精确地感知频谱的状态并快速准确地接入授权频段就显得尤为重要.由于网络中存在干扰和阴影衰落等因素,传统的频谱感知效果不理想.本文引入了协作频谱感知技术,通过强化学习算法选择参与协作的次要用户,综合各协作用户的感知信息来最小化信道中的干扰,同时也减少次要用户的信令损耗,最后通过深度神经网络对感知结果的分类问题进行改进;提出了一种基于协作频谱感知的深度强化学习算法.仿真
针对上行链路非正交多址接入(Non?orthogonal multiple access,NOMA)中的用户配对问题,提出了一种基于双边匹配模型的上行链路NOMA用户配对方案,与现有的NOMA用户配对方案不同,本方案根据用户信道增益采取预分组,避免了信道增益差距巨大的用户配对,同时避免信道增益差距微小的用户配对,以提高系统整体性能;考虑信道增益过小的用户在现实场景中无法通信,设置一个信道增益门限值作为能否通信的判决条件,分组后采用信道增益差值作为偏好度进行组间两两配对.仿真结果表明,相较于现有的传统NOM