音频片段复制和拼接篡改检测与定位研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:adu198612
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着具备多种编辑功能的音频软件的广泛流行,非专业人员为了私人目的也可以随意便捷的对音频文件进行各种编辑甚至是恶意篡改,这给检测音频的真实性带来了巨大的挑战。其中,同源复制粘贴篡改和异源拼接篡改是改变音频原始含义最重要的两种篡改方式。同源复制粘贴篡改操作是将原始音频中的某部分信息复制并粘贴到该音频的其他部分,因此原始片段与篡改片段之间高度的相似性致使检测十分困难。异源拼接篡改操作是将两段不同设备录制来源不同的音频进行拼接,由于篡改点信息量少且不易察觉,同样也导致检测难度的大大上升。为此,本文针对音频片段复制和拼接篡改检测与定位开展研究,主要工作如下:(1)介绍了数字音频篡改相关理论和知识,包括篡改检测过程中重要的语音端点检测技术、提取音频特征所使用的CQT变换(Constant Q Transform,CQT),可视化音频信息的语谱图,生成篡改检测模型的神经网络以及衡量方法性能的评价指标。(2)提出了一种基于多特征融合的音频同源复制粘贴篡改检测与定位方法。首先将音频利用基于谱熵法的语音端点检测技术划分为若干有声段和静音段,接着基于能熵比法进一步对有声段分割得到音频字节;然后分别对每个字节提取基音频率特征、颜色自相关图特征和短时能量特征,并利用动态时间规整距离衡量任意两个字节之间的基音频率相似度,利用余弦距离衡量任意两个字节之间颜色自相关图相似度,利用短时能量和差值衡量任意两个字节短时能量的相似度,最后基于多特征决策融合以准确定位篡改位置。实验结果表明,本方法的精准率和召回率均达到了97%以上,均优于对比方法。此外,定位的精准度平均提升了约45%。而在常规信号处理攻击后,本方法仍可以达到94%以上的准确率和召回率。(3)提出了一种基于常数Q光谱草图(Constant Q Spectral Sketches,CQSS)、滑动窗口和卷积神经网络的异源音频拼接篡改检测与定位方法。该方法将长音频利用滑动窗口分割得到一组相同长度含重叠部分的音频片段,然后从这些音频片段中提取出CQSS特征并输入到卷积神经网络。该网络在传统神经网络的基础上引入扩张卷积和批量归一化并用全局平均池化层替代全连接层。实验结果表明,所提方法在准确率、精确率、召回率和F1分数上均优于对比方法,均达到了95%以上。此外,本方法在定位出篡改区域的同时避免了误检的发生。而在常规信号处理攻击后,本方法仍能够达到94%以上的准确率、精确率、召回率和F1分数。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)作为一种高分辨率雷达,能够在能见度极低的恶劣气象条件下获取高分辨率图像,是现代化战争中取胜的关键因素。基于SAR的目标检测识别技术被广泛应用于军事领域,且已成为各国竞相研究的重要任务。因此,开展复杂环境下SAR图像目标检测识别关键技术的研究具有重要意义。在复杂环境下,由于其中各种干扰因素的影响,现有的SAR图像目标检测识别技术
学位
近年来,人工智能的兴起促进了移动机器人领域的发展。目前,随着家庭、医院、工厂等社会领域对机器人的需求量逐步扩大,这对移动机器人的工作效率、可靠性等方面提出了更高要求。移动机器人作为一种重要的生产工具,常需要从一个目标点移动到另一个目标点,而目标点之间可能会存在障碍物,因此设计快速有效的路径规划算法可提高移动机器人的工作效率。然而基于随机采样的路径规划算法普遍存在着效率低、抗干扰能力差等问题。针对以
学位
心率是人体重要的生理参数,对心率的实时准确检测在各行各业均有着广泛的应用。传统的心率检测方法包括心电图(Electrocardiogram,ECG)检测法和成像式光电容积描记(Photo-plethysmography,PPG)检测法,这些方法需接触人体,成本高,操作难度大。近年来,基于图像光电容积描记(Image Photo-plethysmography,IPPG)的心率检测成为热潮,这种技术
学位
以“大智移云”为特征的新一代信息技术的快速发展,给交通管理的信息化、智能化和科学化提供了新的机遇和挑战。国家《交通强国建设纲要》、《“十四五”现代综合交通运输体系发展规划》、《数字交通“十四五”发展规划》中明确提出,要利用大数据、人工智能、机器学习等新一代信息技术提升交通安全应急保障能力,强化交通应急救援能力。对受损路网进行合理的修复以快速打通救援生命线,保障救援队伍和应急物资能够及时输送到各需求
学位
基于文本的行人搜索技术是根据行人文本描述从图像库中匹配目标行人。行人搜索在实际应用中,会面临目标行人查询图像难以获取的问题。因此基于文本的行人搜索可以根据目击者的口头描述进行搜寻。与基于图像的行人搜索相比,它的方式更加灵活和人性化,因此成为学术界新的研究热点问题。该任务与跨模态检索任务类似,都是通过文本检索出相关图像。但是基于文本的行人搜索面临行人图像分辨率低,行人之间类间差别小等挑战,因此必须学
学位
近年来,随着现代雷达、电子对抗和通信等技术的发展,对于微波收发系统的性能也提出了更高的要求。频率源作为收发系统的核心部件,其技术指标要求也愈来愈高,并且在不同的应用场景中,对于频率源的特点需求也有所区分和侧重。在雷达及信息对抗系统中,频率源作为提供本振信号的核心部件,跳频时间直接影响目标搜索能力和抗干扰能力等关键性能。因此,具备频率捷变能力的频率源受到了广泛的关注。本文从频率源的技术基础出发,论述
学位
新体制雷达一般都综合运用多种抗干扰技术,如发射相干的信号波形和利用空间分集技术,根据接收信号在脉内、脉间和空域的相干性差异,可有效抑制干扰,对雷达干扰技术的研究提出了严峻的挑战。针对目前多假目标欺骗干扰方法对抗新体制雷达存在的问题与不足,本文以掩护重要目标为应用背景,以新体制雷达有源干扰为切入点,以理论推导和实验仿真为技术手段,深入研究了基于周期多相位调制的新体制雷达干扰方法。主要研究内容如下:(
学位
随着我国居民对供电质量要求的逐步提高,配电网的发展也面临着新的挑战。智能配变终端是配电网自动化建设中的核心设备,其性能将直接影响到配电网的供电质量。但配变终端所面临的问题仍有不少,其中如何优化配电台区自动化管理成为了目前亟待解决的问题。结合当前配变终端存在的问题,本文提出了智能配变终端管理平台的设计方案和实现方法。智能配变终端管理平台总体采用B/S架构,前端采用Vue.js框架实现,界面设计选用E
学位
学位
随着无线设备的广泛部署,使用Wi Fi信号进行人体动作识别,在人机交互等领域起到重要作用。现有的方法针对不同场景下对同一套动作的识别准确率存在差异的问题,提出利用大量的动作数据对模型进行训练。但是,人工收集大量数据耗时耗力,并且模型对大量数据训练时会导致训练周期变长。本文利用迁移学习和少样本学习方法解决上述问题,论文主要工作如下:信道状态信息受环境影响会产生不同的变化,这会导致在不同时间或不同人做
学位