基于压缩感知的音频和语音统一编解码算法研究

来源 :福州大学 | 被引量 : 2次 | 上传用户:ribb5619
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动便携式多媒体设备广泛使用的今天,低速率、高保真的语音和音频信号压缩编码问题仍然是信息处理领域研究学者广泛讨论的课题。近三十年来,语音编码技术和音频编码技术虽然都得到了快速的发展,但由于声音信号的类型多样化,现有的语音编码或是音频编码系统都不能提供全透明音质。现代声音信号处理系统依然需要新的压缩编码技术统一处理语音和音频信号。语音和音频统一编解码(Unified of Speech and Audio Coding,USAC)技术是目前工业界和研究领域普遍讨论的课题。目前,广泛采用的MPEG-D USAC系统利用两个独立的语音和音频编解码核分别处理语音和音频信号。MPEG-D USAC首先采用语音音频识别方法对输入信号中的语音和音频信号进行分类,然后利用增强的频带复制(enhanced Spectral Band Replication,eSBR)技术压缩信号的高频分量。不同于以往的频带复制(Spectral Band Replication,SBR)技术,USAC中的eSBR模块需要同时处理语音和音频信号,利用多通道的正交镜像滤波器(Quadrature Mirror Filter,QMF)组对信号进行时—频变换,使系统的复杂度较高。本文在MPEG-D USAC系统的基础上,通过稀疏快速傅立叶变换(Sparse Fast Fourier Transform,SFFT)技术对eSBR模块进行改进,设计低复杂度的MPEG-D USAC实现方案。本文利用低复杂度的SFFT感知算法设计多通道的QMF滤波器组,实现信号的快速时—频变换。本文所采用的利用SFFT算法设计eSBR模块的方案,能够以亚线性时间提取出信号在傅立叶变换域内的部分重要分量,有效减少了信号进行离散傅立叶变换时的运算量。实验数据证明,相对于传统的eSBR技术,采用SFFT算法对信号进行时—频变换更能降低运算复杂度,其运行时间能够快上几倍。通过对改进后的USAC系统所输出的声音信号进行音质评测和波形分析,证明了本文所提方法在降低系统运算复杂度的同时,也依然能在不同编码速率下同时对语音和音频信号进行高效的编解码,达到预期的理论结果。
其他文献
<正>~~
期刊
本文对吐鲁番地区坎儿井命名进行归类分析,从中探索坎儿井称谓的人文地理、自然地理等规律和特点。
1、2016年全年业绩前瞻总体符合预期。2、优质龙头估值合理,已处于中线布局区间。2016年国家统计局公布的医药制造业收入、利润增速分别为9.7%、13.9%,相比于2015年均有小幅提升。
分别采用浸渍和喷涂方法制备了浸渍型钴基催化剂(i-Co/SiO2)和蛋壳型催化N(e-Co/SiO2),添加锕系元素钍(Th)作为催化剂助剂,利用X射线衍射(XRD)分析了催化剂晶相结构,H2程序升温还原(H2-TPR)
民生银行(600016)公告称,由公司主导的“汇富-建投汇宇-SOHO复兴广场资产支持专项计划”,目前在上海证券交易所成功发行,发行总规模38.1亿元,采用结构化分层设计和“信托计划+资管计
采用流变测试技术考察了两种阴离子表面活性剂油酸钠(NaOA)和芥酸钠(NaOEr)在四丁基溴化铵(TBAB)和KCl诱导下构筑蠕虫状胶束的行为.随着KCl浓度增加,NaOA水溶液粘度增加,而加入TBAB
虽然本周内市场并未"势如破竹"地突破前期3301的高点,创造新高。市场在前高的附近"犹豫",这使得部分投资者开始怀疑市场的走势,甚至还有不少投资者在做"神仙般"地预测市场头部。在
本文简要叙述近代新疆基督教的中外史料,并据外文史料勾勒出新疆天主教的基本轮廓
本文探讨了社区的内涵,给社区下了一个通用的定义,建立了社区类型指标体系,对社区进行了分类,指出了社区地理研究在人文地理学中的地位,最后讨论了提高社区地理研究水平的途
期刊
受两会利好消息的带动影响,本周初沪深两市出现上涨,特别是创业板指连续两个交易日上涨。值得注意的是,创业板在上涨的同时,在底部区域成交量放出天量。这是否意味着后市风格