基于动态残差网络的音频有损压缩算法研究与实现

来源 :东华大学 | 被引量 : 0次 | 上传用户:out000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据压缩是指在保持数据的信息熵的条件下将数据量进行削减。因为深层自编码神经网络擅长于理解数据并对数据进行抽象表征,能够有效地对复杂数据进行压缩。为了能够将人耳听觉所能捕捉的所有频段作为输入,必须输入超长的音频信号采样,进而导致自编码网络的性能下降问题,本文提出了动态残差网络用于音乐音频有损压缩,优化了深度自编码网络模型,提出了一种结合注意力机制和残差学习的量化方法,从而实现了音频信号的压缩量化,同时拥有在不增加额外数据量的情况下储存多种音质的优点。最后提出了一种基于卷积分解、蒸馏学习、核内关联分析裁剪的网络压缩方法,为复杂网络在低计算性能平台上能够有较好的表现。
  本文的主要研究工作如下:
  1. 详细阐述了深度神经网络的数据压缩方法,鉴于自编码器计算复杂度高且不具备量化功能,不能适应音频信号超长采样压缩问题,构造了一种基于卷积宽感受野的自编码深层神经网络对音频的脉冲调制编码进行特征提取,结合批标准化防止了数据训练过程中的漂移问题。
  2. 音乐音频是一种非平稳信号,在不同时间段的动态具有较大差异,本文使用循环神经网络对时序数据进行音频动态分析;针对音频不同时段信号的动态分配不同的比特数,并进一步使用聚类量化方法解决了神经网络难以处理的量化问题。同时通过多段残差网络实现了针对信号主体和细节的重构,不需要对不同音质重新编码,从而不会增加文件额外存储空间,最终提取出动态比特流,并使用无损压缩将压缩数据进一步对比特流进行压缩。
  3. 为了解决移动平台的计算力匮乏从而导致不能实时解码的问题,通过参数分析和模型结构分解优化实现了对解码器的模型压缩,从而减小复杂度和加速计算,提高算法在计算力相对缺乏的移动平台的性能表现。最后,通过实验,展现本文算法在不同条件下的效果,体现其相比传统算法的优势,并在经过模型优化后,模型依旧能够保持相对较好的压缩效果。
其他文献
随着化石燃料的日益枯竭和全球能源需求的持续增加,环境问题变得日益严峻。由于光伏组件及其系统的技术进步和政府对清洁能源的激励,光伏发电系统的成本逐年下降。在过去几十年中,光伏的累计装机容量在全球范围内以极高的速度增长。光伏发电系统的大规模并网给电力系统的稳定和安全运行带来了重大冲击。因此,光伏发电系统接入电网需要一种有效的控制策略,该策略应能确保系统在电网正常和故障条件下均能良好运行,并满足可再生能
漏电是矿井低压电网的一个主要故障类型,同时也是影响工矿企业供电安全的重要因素。由于漏电信号微弱、易受干扰,漏电机理较为复杂,目前现有的漏电保护判据都有各自的局限性,矿井电网漏电故障识别问题始终存在。因此,漏电保护判据的研究对提高矿井低压电网供电安全有着重要意义。  本文以矿井低压电网为研究对象,建立了可描述单相漏电全过程的瞬时序网络模型,分析模型给出了各线路零序全电流、零序全电压等特征量的数学表达
学位
水产养殖是我国的重要产业t但随着水资源的日趋匮乏,我国要继续扩大养殖规模,必须要对养殖密度进行控制,并提高自动化的水平,这就需要对严重影响水产生物的生长安全的水质参数进行实时监测。目前从国外直接引进的现代化养殖设备和监控系统价格昂贵,运行成本高,在国内无法广泛普及,而国产的水产养殖设备和监控系统尚且无法完全在现场进行部署。针对这一现状,提出了一种基于ZigBee技术的鱼塘水质环境监测系统,它的主要
学位
该文首先针对脉冲TEACO激光器的基本原理、放电激励技术、预电离技术、放电稳定性等方面进行了深入的理论分析,指出了TEACO激光器实现高重复率脉冲输出对电源系统的要求,为设计激励电路提供了理论依据.参与设计制作了一台重复率可达20Hz的脉冲TEACO激光器的电源系统,介绍了脉冲控制电路的组成和工作原理,详细分析了主放电电路的充放电过程,并进行了数学模拟.分析和讨论了电路中各种参数对主放电电压和电流
学位
该文将现代电子工艺中比较先进的成膜工艺——直流磁控溅射法,应用在PTCR元件的底电极的制备上,是一种全新的尝试,结果获得了高性能的与钛酸钡(BaTiO)系PTCR元件欧姆接触良好的,厚度1.0μm左右的溅射镍电极.结合实际生产需要,该课题就直流磁控溅射法制备高性能钛酸钡(BaTiO)系PTCR元件电极进行了较为详细的研究.研究内容主要包括:直流磁控溅射BaTiO系PTCR元件电极工艺研究、磁控溅射
学位
该论文的研究内容共五章.(1)绪论;(2)放电回路与放电开关;(3)TEA-CO激光器的几种典型预电离技术;(4)实验结果与分析;(5)总结.(1)绪论主要介绍了TEA-CO激光器的发展及应用,指出影响TEA-CO激光器功率提高的因素主要是高气压下的稳定放电和大负荷下高压开关的稳定工作,给出了课题的研究内容及意义.(2)首先分析了Marx发生器电路、Blumlein电路、充放电电路、电容-电容转移
学位
随着计算机科学与信号处理技术的高速发展,调制信号参数的估计与调制方式的识别在民用和军事领域都扮演着重要的角色,例如灾害的防御、地质、海洋的探查、电子信息的对抗,情报的侦察等领域。而调制信号参数的估计,如调制方式、载频等,是能够成功识别调制信号方式的重要前提。论文的研究内容主要包括:  1、根据信号的循环平稳性在抗噪性方面的优势,采用信号的循环自相关函数进行傅里叶变换得到信号的循环谱。在载波频率估计
学位
由于鱼眼镜头的视角可达 180°左右,因此其被广泛应用于医学成像、智能交通、视频群组会议和安防监控等领域中。在近年来兴起的高级驾驶辅助系统、虚拟现实与增强现实等领域中,鱼眼镜头也有着广泛的应用前景。相比于普通镜头,鱼眼镜头在带来更大视角的同时,也导致了严重的图像畸变。对于鱼眼图像畸变矫正算法,国内外的很多科研人员都做过相关的理论研究。然而,大部分的算法复杂度高,计算量很大,只能在高性能的PC上实现
学位
视觉是人类观察和理解世界的一个重要途径,而机器视觉中的一个重要任务就是通过准确地理解人体行为动作来更好地实现人机交互。与此同时,视频数据随着网络技术的发展正在海量增长,而视频人体行为识别与定位由于在视频安防监控、视频检索以及人机交互中的巨大应用价值也引起了越来越多的机器视觉工作者的重视。  由于计算机自动识别出视频中危害人身安全的行为动作后进行自动报警,可最大程度地减少受害人的伤害,具有重要的视频
学位
智能监控系统通过结合人脸识别、目标检测与跟踪、异常检测等技术被广泛应用于众多相关领域。与此同时,在我国日趋复杂的工业网络结构中,监控视频在工业安防和工业质检等方面的作用愈加重要。然而,随之产生的海量监控视频的传输和存储给网络带宽、内存资源等方面也带来了极大的挑战。因此,保证监控视频的高效应用并提高压缩与重构效果,具有重大的应用和商业价值。  本文在分块压缩感知理论的基础上,根据监控视频自身及其应用
学位