四通道甚低码率语音动态编解码方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:chnlaozhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字音频讯号因其高质量与便利性被广泛应用于日常生活中。随着互联网与智能手机的普及,数字语音信号广泛应用于即时语音通话,语音留言,语音翻译,听书,语音遥控等应用中。为减轻其传输和存储带来的带宽和磁盘空间压力,语音压缩是一种有效可行的手段。自九十年代起,随着计算机计算能力的提升,众多低码率的音频编码算法被提出,但这些算法多为通用算法,未单独针对语音特性进行压缩。因此,本文提出一个完整的语音编解码器,针对各时刻只存在单一人声的语音信号进行压缩,力求在保持语音质量的前提下将码率压缩至最低。本论文研究并对比了国内外现有音频算法研究。首先,本文首次提出了使用基频、共振峰包络、相位和彩噪声四个通道的信号进行语音压缩的方法;其次,本文提出并使用了基于希尔伯特变换的快速频移匹配在线字典学习方法,对共振峰包络、相位和彩噪声通道,进行压缩,使较小容量的字典即可对带有轻微频移的未知频谱进行非线性拟合,同时令拟合效果更加自然。再次,本文提出了多趟扫描字典增量训练方法,以短时延迟为代价,优化了字典中的原子的选择,并在保持拟合质量不变的前提下,进一步减少字典容量,从而降低了比特率。字典还采用了最少最近使用(LRU)方法进行换入换出,确保了字典既小而精,增加了匹配速度和字典中原子的有效性。另外,在参数定点化表示过程中,本文对听觉较灵敏的频段进行较高精度的定点化,对其它频段进行较低精度的定点化。对参数进行差分并使用非均匀编码间隔,以便在能提供较大数值表示范围的同时,尽量保留微小的变化细节。本文提出一种自适应的动态霍夫曼编码方法,用于将定点化后的参数进行进一步压缩。该方法通过动态调整树结构以适应变化的数值出现概率,不仅避免显式传输概率表,降低了码率,还能适用于流式音频,获得更好的动态压缩效果。实验结果表明,在保持较高的24kHz解码采样率的前提下,本文提出的语音编码器能将平均语音码率压缩至1kbit/s以内。该方法不但适用于一般语音传输,而且在水下,卫星通讯,抢险救灾等带宽受限或带宽昂贵的应用场景,因其码率极低,优势也比较显著。与一般算法不同,该算法在极低码率下,仍尽力保留语音信号高频部分的特征信息,因此保持了较佳的听觉效果。
其他文献
栏目是编辑手中一种重要的工具,运用栏目,可以把有着共同特点的稿子归纳在一起,突出报道重点,引导读者阅读,丰富版面内容。深耕某一栏目,能够传递一份报纸的文化底蕴,打造这
本文对《全新版大学英语综合教程2》的主课文篇章做文体分析研究,尝试把文体学相关理论和研究方法融入到大学英语教学中,从而培养学生的文体意识和得体的英语交流能力。《全
目的探究1型糖尿病未成年患者血糖控制的影响因素,旨在为临床上治疗1型糖尿病未成年患者提供科学依据。方法选取2018年2月至2019年2月于河南宏力医院接受治疗的78例1型糖尿病
个人信用评价历经长期的发展过程,已经形成了包括统计学方法、非参数方法、运筹学方法、人工智能方法和组合评分方法在内的相对完整体系,同时也存在着诸如信用样本有效性及完
Bi2WO6是一种n型新型半导体可见光光催化剂,环境友好、结构稳定、光催化性能优异,其直接带隙宽度约为2.7eV,属于窄带隙半导体,是一种理想光催化材料。本论文旨在探究合成性能
冷战结束后,西方国家开始纷纷调整海军战略。因为苏联这个对手的消失,使西方国家海军原来那种为在大洋上与苏联海军对决而制定的战略突然间变得无所适从了。为了尽快适应冷战
<正>今年,守信者将获得更多实惠,失信者将更加寸步难行。国家发改委相关负责人透露,2017年,个人诚信体系建设将掀起高潮。要加快建立房地产中介、导游等14类重点职业人员信用
<正>关于党的十九届四中全会,我们首先要关注的是其召开时间所处的时间节点,今年是新中国成立70周年,把这两件事结合起来看能够帮助我们更好地体悟此次会议的时代意义。历史
本文从贸易纯粹理论角度,探究时间因素影响贸易格局和比较优势的时代背景、现实表现、作用机制、理论价值、现实意义和政策导向。
为逼真模拟柔性管件在虚拟维修过程中的变形过程,提出了基于横截面假设的软管模型构建方法.将软管的变形过程转换成截面中心受力后的响应过程,结合软管的物理特性,对其进行平