基于密集神经网络的语音欺骗检测

来源 :广东技术师范大学 | 被引量 : 0次 | 上传用户:LIKE0610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
已有研究及实践均证明语音变形(Voice Transformation,VT)、语音转换(Voice Conversion,VC)、语音合成(Speech Synthesis,SS)及重播语音等多种欺骗性语音能有效地欺骗说话人识别(Automatic Speaker Recognition,ASR)系统,给社会安全带来严重的危害。因此,研究欺骗语音的检测具有重要的理论和实用价值。已有的研究主要利用传统的机器学习方法和一般的卷积神经网络方法,所用特征存在信息不足或深度不够的问题,影响检测算法的性能。为此,本文研究基于密集神经网络的语音欺骗检测,该网络结构能自动提取更深更好的特征,提高了算法的检测性能。本文主要的工作如下:1.针对VT的检测,本文提出基于卷积神经网络(convolutional neural network,CNN)模型的语音变形工具检测算法。所采用的网络模型结构是在卷积神经网络中的密集神经网络的基础上优化得到的。本网络模型共有167层网络层,比起传统网络能够利用更深层次的特征,因此能得到更高的检测精度。实验结果表明该检测算法对同数据库VT欺骗语音所用工具的准确率超过了97.4%,对跨数据库VT欺骗语音所用工具的准确率也有91%以上,说明该算法具有良好的鲁棒性。2.对于VC和SS的的检测,本文构造的检测模型同样基于密集神经网络,该网络共175层网络层,由3个稠密区块组成,并进行特殊的网络结构的设计,采用特殊结构的3?1卷积核和1?2池化器,能够很好的提取时频图的特征,并且防止过拟合。本模型的实验结果表明在同源数据库上的准确率在97%以上,在跨数据库的准确率在94%以上,等错误率(equal error rate,EER)也达到1.44%,说明本模型对于VC和SS的检测具有很好的效果。本文中所提的基于密集神经网络的语音欺骗检测算法可以作为一种基于说话人识别(automatic speaker recognition,ASR)系统的检测模块,使其具备抵抗语音欺骗攻击的能力,对信息安全建设具有重要意义。
其他文献
随着现代运动训练方法的发展,运动员在创造出更高的运动成绩的同时,也面临着更严峻的竞争与挑战。射击运动涉及精准的瞄准过程,需要射手拥有良好的认知与运动控制能力,以保证最佳的射击状态。近年来运动科学结合神经电生理学,不断寻找量化评估运动员能力及其能力提升的手段。在各种神经电生理学信号研究中,脑电图作为一种分析技术手段,具有安全高效、时间分辨率高的特点。目前关于射击运动的相关研究主要从专家射手与新手对比
学位
学位
学位
学位
学位
学位
学位
学位
近年来,学者们将缓存引入到5G通信架构中,通过在终端、基站和核心网网关部署缓存,将热门内容缓存到离用户更近的位置,减少回程链路和骨干网的流量,降低下载时延,提升用户体验。现有的缓存方法大多关注于提高单个位置或是局部网络的缓存命中率,如,基站缓存和终端缓存。然而,终端、基站和核心网三个位置缓存的内容在时空分布上并非孤立存在,而是相互影响,互为补充。为更好地服务移动用户,不仅需要考虑在每个位置部署高效